性能评估总评
性能评估测后总评:
为什么几乎同级别的NVIDIA显卡和ATI显卡在3DMARK VANTAGE测试中却会存在上述不同的测试结果?按理来说,ATI HD3870拥有相对较高的默认频率而且还拥有相对更新的DDR4显存颗粒,依照频率越高性能越强的一般分析标准,HD3870应该获得相对更为优秀的测试成绩才对,但是事实的测试结果却并非像人们想象的那样。这又是因为什么原因?出于此因素,我们打算更深入地分析这两款显卡的核心部分——GPU核心构架,以便为大家解开疑团。
AMD的每个“Stream Processing Units”都包含有5个 “Shader Processing”分支器(Branch Execution unit),但“Shader Processing”并不是一个完整的统一渲染单元,由于每5个流处理器由1个分配执行单元(Branch Execution unit)来分配工作,而5个流处理器是不会在每次分配中都被应用到的,假设在一次处理中,5个流处理器中只有4个被分配执行单元调用,那它的利用率就只有80%,满载的情况基本不会出现。
NVIDIA及DirectX中,对“SP单元”的定义为“Stream Processing”,但AMD对SP单元的定义为“Shader Processing”。
反观NVIDIA核芯架构,每个SP都是通用的、不相关的和标量地,可以同时进行MAD和MUL操作,就是说G84的SP单元时刻都可以被充分利用的,大大提高了GPU的执行效率。
因此,AMD真正的“联合渲染单元”的数量,比其规格表中所列出的要少得多,甚至不足其宣传数量的1/4水平。HD3850/3870在规格表中的SP单元有320个,不过RV670(3870/3850)真正的“Stream Processing Units”是64个。
NVIDIA显卡的光栅化单元(ROP)可以直接做AA/AF(全屏抗锯齿/各项异性过滤)操作,所以在开启AA/AF后性能下降很小。AMD显卡的ROP单元不支持AA/AF操作,需要通过SP单元进行AA/AF,而AMD的SP同时需要兼顾VS、PS与AA/AF操作,所以开启这两项后,性能下降明显。
NVIDIA核芯架构中,每SP都是1D标量单元,可以将一个复杂指令拆分为4个简单的标量指令来运行,GPU利用率更高,游戏执行效率更高。而AMD显卡陈旧的核芯架构仅支持4D的矢量操作,虽然在理论上,执行传统的mul+mad或3D+1D/2D+2D的操作时,效率更高,但在实际游戏中往往无法达到“满载”的理想状态,从而使游戏执行效率低下。
后评:在支持DX10游戏规范方面我们需要承认NVIDIA在这方面的实力,而且NV对于这个趋势也做了充足的准备,将更多AA和AF处理能力设计到G94内核中,在G94架构中为了更好的AA效果,NV用POP单元去处理,而3870用流处理器去运算,从而导致3D处理能力降低。为了更好的AF效果,NV应用了2倍于3870的纹理过滤单元,G94有32个,而RV670只有16个,所以也致使在AA和AF开启的情况下进行测试,96GT在大多数游戏中战胜3870,在实际测试中,NVIDIA显卡先进的核芯架构已大辐领先于AMD的显卡,至少在这点上A卡方面还是存在很大的不足。
虽然今天3DMARK VANTAGE只能测试GPU中的3D显示效果,但我们相信在不远的将来,8系及以上的GPU将支持物理运算,NV的GPU上的3DMARK VANTAGE得分将会增加。但是目前为止我们还没有听到AMD在这方面的举动,AMD在游戏驱动等方面的滞后一直以来也是制约发展的软肋,我们期待着它有更好的改进,当然我们同样也期待未来显卡的不断升级和完善,对于各派别显卡在3DMARK VANTAGE的表现,我们将拭目以待。
网友评论