摸索中前进 HD7000显卡谁最具价值?

PChome | 编辑: 夏阳 2012-04-13 05:00:00原创 返回原文

巨型核心并不是实用之道

相信网友不会忘记巨核高热的GTX480吧?巨核的目的在于高度并行和整体的设计,使得芯片内尽可能多的运算单元联合起来以达到期望的性能巅峰。但事实证明巨核的是需要借助制程和合理的设计才能走向成功,加强配比的GTX560Ti和优化制程控制功耗的GTX580的成功便可以印证这一点。同时硕大的GT200和R600也能看到能耗比的不足。

盖棺定论 HD5800和GT400的成败

在09年的9月,基于40nm制程的HD5800系列率先问世,全新的制程和API可以说是独领风骚半年之久,在这次架构中,凭借制程优势相对HD4870来说将主要的核心单元翻了一番,在性能上超越了当时的旗舰GTX285逾20%,并且在DX API上也是率先DX11的,同时首次实现的Eyefinity宽域六联屏以及次世代音频无损输出等等这些功能为其增色不少,也就是说HD5800就性能和功能上而言是成功的。

HD4870的核心架构示意图

HD4870的核心代号成为RV770,通过示意图所表达的单元排布和设计方案也一目了然,Setup Engine其实就是整个核心的调度部分,其中包含了我们常说的线程指派器/指令指派器。

它负责着所有的顶点集合,镶嵌的提取以及包括光栅化操作,也就是说几何形状,光影是由引擎中的VetexShader计算。

中间部分的逻辑线程流处理器和纹理贴图单元等一些单元打包在一个组里,按照10个阵列来算的话,每组阵列包含4个纹理单元和80个逻辑流处理器,流处理器的主要作用是用于着色渲染Pixel Shader。

右侧则是附加功能以及接口等模块单元,下部则是光栅化操作单元以及对应的显存控制器等等。

RV870架构示意图

到了Cypress(即RV870),在设计上面并没有在RV770上进行多少改进,而几乎是简单的将Pixel Shader部分加强了一倍,当然架构图中Graphic Engine相对于Setup Engine仅仅是改了一个称呼,Tessellator升级到了第七代以及其他的细微改进。

RV840架构示意图

有了RV870的成功,AMD没有必要去全新设计一个中端架构,RV840完全可以看作RV870的劈半版,如此一来HD5770(RV840)又和HD4870极为相似,而HD5770借助高频来弥补了位宽的不足,和HD4870之间性能也不分伯仲。

不止一次测试也不止一家IT网站均能够证明HD5770 2WAY CrossfireX性能要超越HD5870,甚至HD4870×2和HD4870 2WAY CrossfireX也能够灭掉HD5870,即便关闭Catalyst A.I功能,要知道交火的理论性能也不过是200%,还要克服外部通信的以及带宽等诸多影响性能的因素,造成这一现象的原因就在于膨胀的Pexil Shader阵列超出了其他单元的最佳配比,导致Graphics Enigne并不能完全控制和利用所有的单元。

HD5800在设计之时并没有考虑到游戏实际的曲面细分需求,并且也没有意识到密集型运算时对超线程指派器的依赖性,因此在HD6000便加强了两者,从而使仍然使用4+1D架构,1120流处理器的HD6870大放异彩,在非DX11游戏下两者性能相差无几,而在DX11游戏下,反而多半是HD6870的表现更加优秀。

未雨绸缪 费米1.0的配比并不合理

在竞争胶着之势态下,无论是AMD还是NVIDIA都没有太充裕的时间去完善首发的新架构设计,改进也总是在摸索中进行。如果说HD5000刚具备DX11的性能,那么NVIDIA的Fermi可谓是过分苛刻了。

GF100整个图形流水线旨在为Tessellation与几何学吞吐量提供足够的性能。凭借一款利用多个“PolyMorph引擎”所实现的全新分布式几何学处构,GF100在图形处理流水线的前端取代了传统的几何学处理架构。每一个PolyMorph引擎均包含一个Tessellation单元、一个属性设置单元以及其它几何学处理单元。每一个SM群拥有自己专用的PolyMorph引擎。新生成的基元被四个并行工作的Raster引擎(上代GPU中只有一个Raster引擎)转化为像素。芯片整合的L1以及L2高速缓存能够实现SM与Tessellation单元之间或不同SM之间基元属性的高带宽传输。

为了便于实现较高的三角形速率,NVIDIA设计了一种叫做“PolyMorph”的可扩展几何引擎。每个PolyMorph引擎均拥有自己专用的顶点获取单元以及Tessellator。为与之搭配,NVIDIA还为每个GPC集群设计了一个Raster引擎,它们并行工作,在每个时钟周期内可设置最多四个三角形。这种工作模式能够在三角形获取、Tessellation、以及光栅化等方面实现巨大性能突破。

第三代SM在架构上引入了多项革新,使其成为迄今为止可编程性最强,资源分配效率最高的SM。每个SM都有32个流处理器,达到了第一代统一渲染SM中处理器数量的四倍。GF100的流处理器转为在着色器的任何负荷下均实现高性能以及高效率而设计。通过采用1D标量通用计算架构,无论输入的指令长短如何,都能100%利用资源。

如果硬要用Graphics Engine(其实叫Polymorph Engine)来解释Fermi的设计的话,GF100拥有四颗该引擎,Tessellator16个(发布时关闭一个),因此在SM利用率和曲面细分的性能上都有着长足的进步。

由于每组SM均有对应的PolyMorph Engine,每四组SM又有Raster Engine,因此在单元复用的效率高的稍显过剩的,再加上过于强调曲面细分,使得Fermi 1.0具备了庞大的体积,性能虽然强劲但功耗却非常恐怖,对于电源供应能力和机箱散热能力都有着不小的考验。

NVIDIA发现,现阶段的游戏对于曲面细分的需求并没有预期中那么苛刻,换个角度来说如果曲面细分的程度开到100%那恐怕是任何显卡都负担不起的,反而在游戏中更多的还是需要依赖常规的CUDA运算,每组SM搭配32个CUDA以及16个LD/ST,4个SFU单元并不是效率最高的搭配。

经过试验,每组SM多集成50%的运算单元(CUDA/SFU/TEX)是单位数量晶体管中性能最高的配比方式,特别是GF114的完全体GTX560Ti,以GF100  60%的晶体管获得了近乎85%的性能。

从GF104/GF114的成功中,NVIDIA意识到巨核的设计是得不偿失的,或者说在相同数量的晶体管数量中应该加强CUDA部分的数量,在一步步的完善SM中单元配比关系之中取得新的突破,GK104的成功同样证明了这一点。

HD7800是GCN的真正精髓

吸取了HD6000和GF104/114的经验,HD7000突出加强了单元配比,同时也借助了28nm的制程将规模扩充至2048 ALU/128TMU以及384BIT IMC,在性能上可以说是与GTX680齐肩。

但道路总是曲折的,AMD在HD7900系列上还是没有掌握住火候,尤其是在很多测试中,HD7950的表现甚至多出自己1/8的HD7870相差无几,在同频的情况下甚至会出现超过后者的现象,原因很简单,重蹈了HD5870的覆辙,过于庞大的运算体系超出了指令调度的控制能力,所带来的负面是与性能不匹配的功耗以及高昂的造价。

内核中不仅仅是GCN ALU,因此判断两个核心的规模应该以晶体管数量或者是DIE的面积着手。

在运行Furmark 1.9.0之前,在HD7970测试平台在CPU占用1条线程的功率在150W左右(模拟Furmark 1.9.0运行时CPU负载所产生的功耗),HD7870则再少5~6W,待机功耗在144~145瓦之间。两者满载功耗分别是(未进行金牌效能计算)325瓦和149瓦。可以笼统的说功耗和核心面积几乎是同一比例(几乎是相差一倍),但通过实际游戏测试你便发现两款显卡之间的能耗比便有着巨大的差异。

《失落的星球2》是一款典型的DX11 GPU高负载型游戏,对于显卡考验的苛刻程度不亚于《孤岛危机》。

几乎所有的游戏都比不上Furmark这种纯用于Pexil Shader运算的测试苛刻,因此核心的利用程度(满载程度)便可以判断核心的使用效率,同时功耗以及帧数表现也与之挂钩。

在该游戏下,HD7970的平均功耗为230瓦,HD7870的功耗是111瓦,HD7970的功耗几乎是后者的2倍还要多,按照理论来讲,HD7970应该在游戏中也拥有2倍于后者的性能,但事实并非如此,接着继续往下看,如果说A卡的架构不太适合玩《失落的星球2》,那AMD力推的《尘埃3》也是如此:

《尘埃3》的确适合A卡,从其稳定的功耗表现和帧数表现就可以看的出来,无论是游戏的任何场景,负载几乎都是均匀的。

但即便是支持度如此完美的游戏下表现也是如此,功耗同样几乎是后者的两倍,而性能却只领先25%左右。也就是说HD7970庞大的运算体系肯定是在某一部分遇到瓶颈,而导致大量的运算单元待命或者是徒劳无功,也就是说白白浪费电能而不干活。

这种标准我们常称之为能耗比,即获得的性能以及与所需电能之间的比例,HD7870的能耗比无疑是最强的,它合理的配比以及组合设计,而且小核心对于良品率和超频幅度也都有着积极的影响,HD7870按照金牌换算后的140W平均热功耗可以说是目前能耗比、效能最高的A卡。

这个视频可以体现HD7870的性能定位,它在性能上与GTX570可以说是不分伯仲,而在功耗以及温度表现上要比GTX570完美很多,在NVIDIA此定位产品正值青黄不接之际,AMD部署HD7800无疑是明智之举。

HD7970无疑也是AMD像前几代用于占据DX11.1,28nm,PCI-E 3.0以及图形性能巅峰的产物,而真正发挥GCN效能的完美点则在HD7800,理性消费的消费者会去选择多付出56.7%金钱以及118.1%的电能去换取平均25%的性能么?

返回原文

本文导航

相关阅读

每日精选

点击查看更多

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑