NVIDIA久违2年的游戏卡新构架Turing登场,一举发表三款GeForce游戏卡RTX 2070、RX 2080与RTX 2080 Ti,分别使用TU102与TU104 GPU,这代强化GPC构架下的SM核心,并导入RT Core与Tensor Core硬体加速核心,分别加速即时光线追踪与深度学习运算。究竟这一代的更新,可提升多少DirectX 11游戏的性能?下面就来看看这一代Turing构架的创新与改变,以及3A大作的性能测试。
NVIDIA Turing世代,不仅制程升级至12nm FFN,构架上也改变Streaming Multiprocessor(SM)设计,加入独立的INT与FP运算单元,并提升L1与L2缓存性能,让这一代CUDA核心性能比起上一代有着近50%的性能提升。
此外,SM单元内更加入RT Core与Tensor Core硬件加速单元,藉由专属硬件设计,加速Real-Time Ray Tracing与Deep Learning游戏应用,让GeForce RTX游戏显卡走向混合渲染的新领域。这一代Turing构架,最完整的GPU核心代号为TU102,也是GeForce RTX 2080 Ti与Quadro RTX 6000所使用的GPU。
TU102 GPU包含着6组Graphics Processing Clusters(GPCs)与72组Streaming Multiprocessors(SMs)所组成。而每一组GPC当中有着6组TPC单元,在每组TPC之下各有2组SM单元。每一组SM包含着64 CUDA核心、8 Tensor核心、256KB寄存器堆、4组Texture Units与96KB L1/shared Memory。
GeForce RTX 2080 Ti虽使用TU102 GPU,但为了与Quadro RTX 6000绘图卡区隔,因此删减了2组TPC也就是屏蔽4组SM单元,因此RTX 2080 Ti的CUDA核心数为4352,相对的RT Core与Tensor Core也有所不同,下表提供给各位玩家参考。
而RTX 2080所使用的TU104,同样有着6组GPC,但每组GPC之中仅有着8组SM,因此共有着2944 CUDA、368 Tensor Core、46 RT Core,并配置8GB GDDR6內存。
最后RTX 2070使用TU106 GPU,仅有着3组GPC,而每组GPU维持着12组SM,因此有着2304 CUDA、288 Tensor Core、36 RT Core,同样配置8GB GDDR6內存。
Real-Time Ray Tracing无疑是这一代的一大重点,重要到取代了GeForce GTX命名,新一代具备RT Core的产品,都以RTX来命名,而光线追踪技术早已行之有年,但GPU在计算光线追踪时,不仅效率低性能较慢,无法满足游戏所需的60fps的性能。
因此,NVIDIA在Turing构架中,设计用来加速光线追踪的RT Core核心,RT Core针对Bounding Volume Hierarchy(BVH)算法进行加速,将需要计算光线追踪的物件,以Bounding Volume切出许多内存块,并逐步缩小Bounding Volume,直到趋近于计算光影的位置。
由于RT Core是独立运算单元,因此可将光线追踪的工作挪出主要Shader,让Shader可继续渲染,而光线追踪则由RT Core负责处理。
Deep Learning深度运算是目前最接近AI人工智慧的技术,也是目前NVIDIA相当重视的GPU应用领域。Turing随着Volta GV100的脚步,于GPU内加入Tensor Core核心,并支持INT8、INT4与FP16等不同精度的计算。
当然NVIDIA并非只设计硬件,针对Deep Learning的技术应用,NVIDIA提供一套NGX(Neural Graphics Acceleration)技术,由NVIDIA自行训练的Deep Neural Networks(DNNs),可利用AI来加速绘图、渲染等应用。
游戏开发商或开发者,可运用NVIDIA NGX所提供的API,像是AI Super REZ、AI SLOW-MO、AI INPAINTING与NVIDIA DLSS等功能应用,都可通过NVIDIA GeForce Experience进行更新与调用。
其中NVIDIA主打的Deep Learning游戏应用莫过于DLSS(Deep Learning Super-Sampling),借由深度学习的方式,让AI来自动计算游戏的超级采样反锯齿技术。
换句话说,以往游戏渲染的图像,通过Temporal Anti-Aliasing(TAA)计算图像反锯齿,最终可获得边缘平顺的高质感图像,但也大幅占用GPU资源,使得游戏性能的下降。
而DLSS的游戏开发相当特别,游戏厂商需将游戏世界的素材、图像,以及高质量的反锯齿素材,交给NVIDIA的超级电脑,由NVIDIA来训练Deep Neural Network(DNN),当游戏开发(训练)完成后,玩家在执行游戏时则将反锯齿交由Tensor Core处理验证,如此一来可获得更好的游戏性能,以及出色的反锯齿画质。
只不过,目前支持DLSS的游戏尚未更新,NVIDIA则提供《Final Fantasy XV Benchmark》测试。当游戏运行在3840x2160的4K分辨率时,倘若一般TAA反锯齿技术,会让整体性能压在不到60fps,但藉由DLSS进行超采样反锯齿时,不仅可让性能得以提升,并得到近似于TAA反锯齿的效果。
DLSS在丁子裤的带子上,有着相当好的反锯齿效果。
TAA在丁子裤的带子上,则有着锯齿状。
这一代的更新NVIDIA加入相当多的功能,都为了提升整体的绘图性能,就像是Mesh Shading。当游戏世界的物件数提升时,很容易导致GPU性能的下降,这在MMO或寻宝游戏常遇到,物件、敌人、玩家挤在同一个区域时,很容易造成性能的骤降。
因此NVIDIA提出的Mesh Shading,不像以往物件由CPU递交Draw Call给GPU的方式,Mesh Shading可让开发者将物件清单交给GPU并行计算,并由Mesh Shader依据物件不同的Levels of Detail(LOD)等级进行细节的渲染。
从NVIDIA提供的Asteroids Demo展示,画面中有着数以万计的小行星,若每一个都用最高LOD进行渲染,则会导致性能不足,且距离游戏视窗越远的物件,其实难以分辨其细节,因此通过Mesh Shading针对不同LOD的物件进行渲染,即可兼顾画质与性能的平衡。
而Variable Rate Shading则可让开发者依据不同的层级来进行图像的渲染,例如赛车游戏画面中,赛车的车身、远景,必须要丰富的细节采用1x1来渲染,而因为动态模糊关系,使得马路、四周景物较难分辨细节,则可采用2x2、4x4的方式来进行渲染。
NVIDIA GeForce RTX-20系列,支持8K60 HDR的图像输出,以及VirtualLink Type C界面。单一组VirtualLink界面,及包含着:4 lanes HBR3 DisplayPort影音输出、USB 3.1 Gen2 SuperSpeed数据传输、27W电源供电。也就是说1组VirtualLink C,即可用来连接VR头盔所需的图像、数据与供电,让VR体验更便利;而且未来屏幕也可以Type C方式来连接图像与供电。
图像解码方面,则支持HEVC 8K30 HDR即时编码、HEVC与H.264编码的性能提升,译码则支持VP9 10/12b HDR与HEVC 444 10/12b HDR。
3DMark Fire Strike可快速衡量平台的游戏绘图性能,也是目前显卡最常使用的测试软件。Fire Strike锁定AAA等级DX11 API的高效能测试,在预设1080p分辨率Fire Strike测试中,RTX 2080获得22995分,其成绩与上一代GTX 1080 Ti相近;而RTX 2080 Ti则来到26836分。
接着在1440p的Extreme测试下,RTX 2080 Ti获得15671的高分,但是RTX 2080反而小输于GTX 1080 Ti,但大赢同位阶的GTX 1080。在2160p Ultra测试情况相同,RTX 2080 Ti获得8161的高分,但同样RTX 2080小输于GTX 1080 Ti,但比起同位阶的GTX 1080还要强。
3DMark Time Spy则是采用新的DirectX 12 API所设计的测试软件。在1080p的Time Spy测试上,RTX 2080获得10192分,皆赢过上一代GTX 1080 Ti与GTX 1080,而RTX 2080 Ti则获得12542的高分。至于更高分辨率的Extreme测试,则有着相同的性能区间。可见这一代,RTX-20系列在DirectX 12性能有所提升,但在DirectX 11 API下仅能靠SM、CUDA数量与主频来提升性能。
VRMark可用来衡量电脑是否有足够的性能驱动VR虚拟现实,并有着Orange Room、Blue Room与Cyan Room三个测试场景。Orange Room属于基准测试,用来衡量电脑是否能够匹配HTC Vive与Oculus Rift的VR设备,在这情境下四张测试显卡,分数都达到11000分的等级,也就是这项目单卡顶天就这分数了。而Blue Romm测试更为严苛,采用5120×2880分辨率与大量的积体照明,要求极高的硬件性能,这测试之下RTX 2080 Ti获得4529分、RTX 2080获得3508,比起上一代的GTX 1080与GTX 1080 Ti有着明显提升。至于采用DirectX 12设计的Cyan Room,更有飞越性提升,RTX 2080 Ti获得13755分、RTX 2080亦有11027的成绩,可见这代DirectX 12性能有着大幅的提升。
此次游戏挑选几款近期3A大作,像是《古墓丽影:暗影》,以及首次登入PC的CAPCOM大作《怪物猎人:世界》,在开放世界探索、冒险与狩猎;除了新游戏之外,也有几款固定测试班底,像是《守望先锋》、《绝地求生》、《孤岛惊魂5》与《刺客信条:起源》等,通过这6款游戏来检视RTX 2080与RTX 2080 Ti的性能表现。
游戏测试皆以预设最高设定为测试基准,并比较主流1080p(1920 x 1080)分辨率与4K 2160p(3840 x 2160)分辨率进行测试。
首先面对主流1080p游戏,RTX 2080与RTX 2080 Ti毫无压力,几乎可达到平均100fps以上的表现。而且在部分游戏RTX 2080性能就可赢过GTX 1080 Ti,更比GTX 1080更适合做为玩胜1080p的显卡。
4K游戏,面对3A大作特效全开,RTX 2080 Ti可撑住平均60fps的性能底线,只不过《怪物猎人:世界》这款要求甚高,因此平均仅只有41fps。至于RTX 2080在4K性能,相当接近上代卡王GTX 1080 Ti,若追求4K60的玩家,还是推荐RTX 2080 Ti。而RTX 2080则向下满足2K 1440p、1080p特效全开3A大作的性能需求。
这代GPU不仅制程提升、CUDA核心在往上推叠,更具备光线追踪RT Core与深度学习Tensor Core,面对即时光追、DLSS等应用,这代性能更远高于上一代,只不过目前测试时,宣布支持的游戏皆未准备好,因此无法在这时间点,就对这一代GPU做出结论。
就4K60这点RTX 2080 Ti算是在主流DirectX 11大作游戏测试下算是及格了;但就RTX 2080来说还是有点勉强,而RTX 2080更适合1440p、1080p分辨率下特效全开。
接下来就期待支持Ray Tracing、DLSS技术的游戏推出,我们在来测一遍RTX-20系列的游戏未来性能;而这一代公版采用新的散热设计与出厂超频,不外乎是要让玩家知晓:“朕卖的不只是信仰,更是技术标竿。”