2008年4月28日,当前最强劲的3D性能评估软件3DMARK Vantage正式发布,从而揭开了PC技术在3D应用测试上的新篇章,相比以往3DMARK 06测试软件,这款测试软件对电脑性能有了更高的要求,特别是对电脑在3D特效方面提出了更苛刻的限制。然而在处理器已经迅速发展的今天,影响性能发挥得瓶颈就更多地集中在了显示芯片的优异程度上,而3DMARK Vantage对于显卡应用技术和整体性能期盼值也在全面提升。
为了更深入地了解3DMARK Vantage这项新型测试软件,首先我们有必要回顾下显卡的基本技术流程。我们知道16年前的电脑是没有GPU,更不会有3D API等一系列概念,显示卡仅仅是作为一个简单的转换器将CPU数据转换成显示器可识别的模拟信号并输出,没有加速能力,所有运算都在CPU中进行。 12年前,我们的电脑已经有了GPU雏形、有专门的硬件负责图型处理,从而减轻了CPU的负担,提高了运行效率。但是3D API还没有统一规范,而游戏开发商也不需要直接对硬件进行操作。
然而现在的电脑已经拥有3D API以及3D特效、纹理、流水、粒子等特效集合,程序员只需要调用3D API中相应的材质、纹理,设定光源的位置、强度,流水的深度、范围等等,而不需要通过程序代码来实现这些3D效果。
而未来,我们相信我们的电脑显卡将不仅仅是普通意义上的GPU,还将集合PPU:PhysX等技术,这也将是未来游戏运行得一个最普遍最流行的流程。
在显卡的发展历程中,我们经历了DX系列的飞速裂变,DX8,DX9乃至现在我们所说的DX10,也许未来还将有DX11等等,而我们所说的3DMARK Vantage测试软件正是基于真实地模拟DirectX10游戏执行的。如果说DX8还只停留在画面的整体勾勒上的话,那么DX9已经在更多细致处做了处理,以便还原更真实更贴近现实的游戏视觉效果,而在DX10中除在对图形显示的细微描画外,也已经越来越多地注重游戏的3D特效,力图为玩家呈现真实的场景与震撼的视觉技术。
作为最新的3DMARK Vantage测试,它真实地模拟DirectX10游戏规范执行,在对系统配置上有着相对较高的要求,要求必须在Vista SP1系统下,使用DirectX 10级别显卡,必须拥有1G以上内存以及支持SSE2的P-D 3.2G或以上级别处理器下系统才能运行。为了检验目前市面上最主流的中高端显卡在3DMARK Vantage中的表现,我们特别选取了NVIDIA最有代表性的XFX讯景9600GT高频版显卡与AMD-ATI HD3870显卡在同等测试平台下的表现,基于3DMARK Vantage对系统的苛刻要求,我们选取了如下配置构建此次测试平台。
评测显卡概况
XFX讯景GeForce9600GT PV-T94P-YHS
XFX讯景9600GT(PV-T94P-YHS)高频版显卡采用G94-300-A1显示核心,65nm工艺制程,采用DX10统一构架,在流处理单元数量上依然保持在96个,支持DirectX 10、Shader Moder 4.0和OpenGL 2.1技术,支持PureVideo HD 2技术,内建VP2视频引擎,并支持VC-1、DXVA-C级解码和H.264的硬件解码,显存规格512MB/256bit,默认频率740MHz/2000MHz。
3DMARK Vantage测试流程
Graphic Test 1: Jane Nash
(测试显卡帖图能力)
此场景画包含以下的特性:
众多固定物件
众多动态贴图
PCF过滤级联阴影贴图
少量实例对象
不包含Ray-Marching精准体积渲染效果
衣物摆动模拟
各向异性过滤
使用分层渲染的水面反射和折射
随着3DMark Vantage测试的全面升级,在Jane Nash测试大量使用了顶级图形特效,这对显卡帖图能力提出了更高的要求,在最高模式下即便是最顶级的显卡面对此种测试可能也会显得疲惫吃力。在此测试下,对显卡核心中的渲染管线提出了更高的要求,渲染管线设计的多少就直接关系到所绘出的图形的填充效率以及画面显示的流畅和精美程度。
Graphic Test 2:New Calico
(测试显卡建模)
此场景画包含以下的特性:
基本由移动物体构成
没有贴图物件
使用方差阴影映射物体阴影
大量实例对象
使用大量的ray-tracing效果(包括容积烟雾,True Impostors以及Parallax Occlusion Mapping)
New Calico测试中包括了大量移动实体对象,其中引入了复杂而壮观的3D影像等场景对显卡建模提出了苛刻要求,通过此项测试检验县卡在应对大量移动特级视觉效果时的处理应对能力。
CPU Test 1:人工智能(AI)测试
AI测试主要针对CPU的运算能力,提供高强度负载,包括个体间的相互配合,路径寻找等。此场景中,所包含的飞机必须在通过每一个通道门时相互避让,以免相撞。
由于测试给予CPU的负载主要依靠大量小飞机的不同动作来完成,产生大量平行运算,能够充分利用目前多核处理器。运算速度越高的CPU将能够让飞机做出更加及时以及更加大量的躲避动作,从而让飞机能够使用更完美的路线来飞行。
CPU Test 2:物理测试(Physics)测试
此测试主要对象是未来游戏的物理运算。测试场景是一个飞行竞赛,不过却加入了很多危险的障碍。飞机尾部将会喷出烟雾,而烟雾会和景内的软体物件如充气障碍物,以及旗帜等相互干扰;同时烟雾也会自行扩散,又受经过的飞机干扰,产生大量物理运算。
如果在机器内装备有PhysX物理卡(或支持物理运算的显卡),则此项测试将启用物理卡(或支持PhysX的GPU)作物理加速之用;否则将使用CPU进行物理运算。在3DMARK选项里有关闭PPU的选项,让玩家能够屏蔽PhysX硬件加速的选项,方便对比测试之用。
就目前的GPU整体性能而言,GPU现有技术已经可以将3D的物件图像刻画得真实而细腻,几乎可完全达到还原真实场景的效果,但是在处理移动物体方面时还是会与现实生活中的场景存在一定的落差,毕竟在目前技术层面上3D移动特效方面完全靠GPU技术还不能完美应付。而CPU的AI和物理运算技术恰好在加强游戏3D物件行为以及动作方面提供了技术支持,从而辅助GPU在完成3D物件移动处理方面变得更娴熟。 就目前现状而言,3DMark Vantage的CPU Test 1以及Test 2还是基本使用CPU进行的,不过据NVIDIA官方透露,在不久的将来,通过NVIDIA即将发布的更新驱动,这两项测试将可以直接使用GPU来运算。由此我们可以推断,在未来的3DMark Vantage测试中,总体成绩也将会因此而大幅提升。
3DMARK Vantage中其它特效测试
由左上至右下,依次为:纹理填充测试、色彩填充测试、像素着色器测试、顶点与几何着色、粒子效果、多层次细节模型构建。利用Perlin噪声函数的特点,提出一种基于Perlin噪声函数的随机地形生成方法,并介绍利用该函数构建地形多层次细节模型的实现过程,最后给出利用Perlin噪声函数生成随机地形的实例。
这些特效测试将对显卡的纹理填充功能、颜色着色功能、像素着色器性能、GPU计算能力以及顶点渲染、几何渲染、Stream out单元的整体性能等提出严格的监测和测试,从而检验显卡在处理特效图形方面的整体能力。
3DMARK Vantage测试分数计算法
Graphic Test的测试得分将会是两个测试场景的帧数(fps)与一个固定系数的乘积,具体的计算公式如下 :
CPU Test的测试得分则与CPU每秒所能执行的操作数(ops,Operations per second)有关,最后的CPU Score(CPU测试成绩)同样要乘以一个系数,具体计算公式如下:
最后的得分计算方法则会由于测试模式的不同而有不同的计算系数,具体的计算公式如下:
3DMark Vantage测试成绩对照表:
测试总结:为了更好地体现这两款显卡在超频状态下的运行能力,此次测试我们选用的两款显卡96GT与3870都并非公版显卡。3DMark Vantage测试从低到高包括Entry、performance、High以及Extreme四个测试模式,但是考虑到为了更好地检验这两款显卡在高强度框架下的应对能力,这次测试我们并没有引入Entry测试环节,而主要针对其他几个框架进行测试。
而且在performance模式下,我们还开启了最高的AA & AF设置在高分辨率情况下进行测试以全面检测显卡的地运行能力,在High以及performance中,这两款显卡虽然有一定的差距但是分数并非相差悬殊,但是我们不得不承认在这几项测试中,NVIDIA显卡确实是以全胜的战绩获得胜利的,我们不能否认这一定程度上跟NVIDIA一直以来关注支持游戏开发投资有关,但是最终的原因还是要归咎于ATI显卡在AA和AF开启高分辨率下的表现确实不好,不能有效提出解决AA和AF下的实用方案。当然我们也要承认,在超频表现方面,超频96GT比超频3870拥有更优秀的表现,而且拥有更大的超频空间。
另外,就市面上销售的22寸LCD显示器来说,价格已经达到很便宜的价位,价格也就在1600元左右,对于消费玩家来说,添置大尺寸液晶面板已经没有任何问题,在高分辨率状态开启AA和AF已经是现代游戏中不可缺少的特征,而且大范围发展支持高分辨率游戏也将成为大势所趋,但是在高分辨率以及开启抗锯齿特效方面NVIDIA相比ATI确实拥有不可置疑优势。
性能评估测后总评:
为什么几乎同级别的NVIDIA显卡和ATI显卡在3DMARK VANTAGE测试中却会存在上述不同的测试结果?按理来说,ATI HD3870拥有相对较高的默认频率而且还拥有相对更新的DDR4显存颗粒,依照频率越高性能越强的一般分析标准,HD3870应该获得相对更为优秀的测试成绩才对,但是事实的测试结果却并非像人们想象的那样。这又是因为什么原因?出于此因素,我们打算更深入地分析这两款显卡的核心部分——GPU核心构架,以便为大家解开疑团。
AMD的每个“Stream Processing Units”都包含有5个 “Shader Processing”分支器(Branch Execution unit),但“Shader Processing”并不是一个完整的统一渲染单元,由于每5个流处理器由1个分配执行单元(Branch Execution unit)来分配工作,而5个流处理器是不会在每次分配中都被应用到的,假设在一次处理中,5个流处理器中只有4个被分配执行单元调用,那它的利用率就只有80%,满载的情况基本不会出现。
NVIDIA及DirectX中,对“SP单元”的定义为“Stream Processing”,但AMD对SP单元的定义为“Shader Processing”。
反观NVIDIA核芯架构,每个SP都是通用的、不相关的和标量地,可以同时进行MAD和MUL操作,就是说G84的SP单元时刻都可以被充分利用的,大大提高了GPU的执行效率。 因此,AMD真正的“联合渲染单元”的数量,比其规格表中所列出的要少得多,甚至不足其宣传数量的1/4水平。HD3850/3870在规格表中的SP单元有320个,不过RV670(3870/3850)真正的“Stream Processing Units”是64个。
NVIDIA显卡的光栅化单元(ROP)可以直接做AA/AF(全屏抗锯齿/各项异性过滤)操作,所以在开启AA/AF后性能下降很小。AMD显卡的ROP单元不支持AA/AF操作,需要通过SP单元进行AA/AF,而AMD的SP同时需要兼顾VS、PS与AA/AF操作,所以开启这两项后,性能下降明显。
NVIDIA核芯架构中,每SP都是1D标量单元,可以将一个复杂指令拆分为4个简单的标量指令来运行,GPU利用率更高,游戏执行效率更高。而AMD显卡陈旧的核芯架构仅支持4D的矢量操作,虽然在理论上,执行传统的mul+mad或3D+1D/2D+2D的操作时,效率更高,但在实际游戏中往往无法达到“满载”的理想状态,从而使游戏执行效率低下。
后评:在支持DX10游戏规范方面我们需要承认NVIDIA在这方面的实力,而且NV对于这个趋势也做了充足的准备,将更多AA和AF处理能力设计到G94内核中,在G94架构中为了更好的AA效果,NV用POP单元去处理,而3870用流处理器去运算,从而导致3D处理能力降低。为了更好的AF效果,NV应用了2倍于3870的纹理过滤单元,G94有32个,而RV670只有16个,所以也致使在AA和AF开启的情况下进行测试,96GT在大多数游戏中战胜3870,在实际测试中,NVIDIA显卡先进的核芯架构已大辐领先于AMD的显卡,至少在这点上A卡方面还是存在很大的不足。
虽然今天3DMARK VANTAGE只能测试GPU中的3D显示效果,但我们相信在不远的将来,8系及以上的GPU将支持物理运算,NV的GPU上的3DMARK VANTAGE得分将会增加。但是目前为止我们还没有听到AMD在这方面的举动,AMD在游戏驱动等方面的滞后一直以来也是制约发展的软肋,我们期待着它有更好的改进,当然我们同样也期待未来显卡的不断升级和完善,对于各派别显卡在3DMARK VANTAGE的表现,我们将拭目以待。
网友评论