未雨绸缪 费米1.0的配比并不合理
在竞争胶着之势态下,无论是AMD还是NVIDIA都没有太充裕的时间去完善首发的新架构设计,改进也总是在摸索中进行。如果说HD5000刚具备DX11的性能,那么NVIDIA的Fermi可谓是过分苛刻了。
GF100整个图形流水线旨在为Tessellation与几何学吞吐量提供足够的性能。凭借一款利用多个“PolyMorph引擎”所实现的全新分布式几何学处构,GF100在图形处理流水线的前端取代了传统的几何学处理架构。每一个PolyMorph引擎均包含一个Tessellation单元、一个属性设置单元以及其它几何学处理单元。每一个SM群拥有自己专用的PolyMorph引擎。新生成的基元被四个并行工作的Raster引擎(上代GPU中只有一个Raster引擎)转化为像素。芯片整合的L1以及L2高速缓存能够实现SM与Tessellation单元之间或不同SM之间基元属性的高带宽传输。
为了便于实现较高的三角形速率,NVIDIA设计了一种叫做“PolyMorph”的可扩展几何引擎。每个PolyMorph引擎均拥有自己专用的顶点获取单元以及Tessellator。为与之搭配,NVIDIA还为每个GPC集群设计了一个Raster引擎,它们并行工作,在每个时钟周期内可设置最多四个三角形。这种工作模式能够在三角形获取、Tessellation、以及光栅化等方面实现巨大性能突破。
第三代SM在架构上引入了多项革新,使其成为迄今为止可编程性最强,资源分配效率最高的SM。每个SM都有32个流处理器,达到了第一代统一渲染SM中处理器数量的四倍。GF100的流处理器转为在着色器的任何负荷下均实现高性能以及高效率而设计。通过采用1D标量通用计算架构,无论输入的指令长短如何,都能100%利用资源。
如果硬要用Graphics Engine(其实叫Polymorph Engine)来解释Fermi的设计的话,GF100拥有四颗该引擎,Tessellator16个(发布时关闭一个),因此在SM利用率和曲面细分的性能上都有着长足的进步。
由于每组SM均有对应的PolyMorph Engine,每四组SM又有Raster Engine,因此在单元复用的效率高的稍显过剩的,再加上过于强调曲面细分,使得Fermi 1.0具备了庞大的体积,性能虽然强劲但功耗却非常恐怖,对于电源供应能力和机箱散热能力都有着不小的考验。
NVIDIA发现,现阶段的游戏对于曲面细分的需求并没有预期中那么苛刻,换个角度来说如果曲面细分的程度开到100%那恐怕是任何显卡都负担不起的,反而在游戏中更多的还是需要依赖常规的CUDA运算,每组SM搭配32个CUDA以及16个LD/ST,4个SFU单元并不是效率最高的搭配。
经过试验,每组SM多集成50%的运算单元(CUDA/SFU/TEX)是单位数量晶体管中性能最高的配比方式,特别是GF114的完全体GTX560Ti,以GF100 60%的晶体管获得了近乎85%的性能。
从GF104/GF114的成功中,NVIDIA意识到巨核的设计是得不偿失的,或者说在相同数量的晶体管数量中应该加强CUDA部分的数量,在一步步的完善SM中单元配比关系之中取得新的突破,GK104的成功同样证明了这一点。
网友评论