集精华之大成★三款旗舰架构对比
Kepler架构虽然是NVIDIA的新生代产物,在设计思路上颠覆了许多Fermi的元素,但不能说它们没有联系。Fermi是NVIDIA为了支持DX11全新设计的产品,它摒弃了GT200的模式,结构变化非常大。在Fermi中,NVIDIA提出GPC和SM的结构概念,以此将GPU分成若干平级并行的工作组,每一个SM有32个CUDA核心,而每一个GPC则有4个SM。重点在于为了尽可能地满足DX11曲面细分计算需求,NVIDIA为每一个SM组配置了独立的几何引擎,并且拥有独立的纹理单元。相较之下,AMD当时的做法只是沿用了RV770的设计模式,扩充了流处理器,在工作网路上加入一个单一的几何引擎来获得对DX11的支持。
NVIDIA GF100/GF110芯片架构
AMD Cypress芯片架构(HD5800)
这两种截然不同的做法导致的结果是,针对曲面细分的理论测试项目中,面对巨大的工作压力,Fermi架构表现优异,AMD不堪重负,以至于NVIDIA一度不愿意承认竞争对手产品也算是真正的DX11显卡。可是实际应用中,游戏开发者为了权衡DX游戏的硬件适应范围,曲面细分量不会设置太多,通常只用在一些特定的效果表现上,因此Fermi的优势很难找到用武之地。
GF100/GF110与GF104的SM组构成
NVIDIA无法不正视这个问题,于是在随后推出的中高端芯片上做出了改进的尝试,GF104/GF114将SM内的CUDA数量增加到48个,但SM只有八个。因为SM少,与其对应的几何引擎“Polymorph”数量也减少,相当于调整了曲面细分器和流处理器之间的配比,实际应用中的结果令人相当满意。
Kepler可以说是通过在Fermi架构探究中不断总结,不断优化得出的结晶。NVIDIA发现八个几何引擎已经能够完全满足实际游戏中曲面细分的需求,即便是理论测试也一样。因为曲面细分的几何结构最后需要做像素渲染,这样便需要更大量的流处理器,末端输出的性能也不只是由几何引擎决定的。
Kepler GK104芯片架构图
于是最后以GF104的组成形式为蓝本,Kepler架构中同样有8个SM,这里称为SMX。从G80开始NVIDIA便让流处理器的工作频率与ROPs以一定的比例运行,这个比例最初由BIOS内的设定控制,最后在Fermi架构固定为2赔。现在,每个SM中的流处理器数量扩充到了惊人的192个,整个芯片拥有1536个CUDA核,频率与ROPs频率同步运行。与GTX580相比,CUDA频率只降低了三分之一,但CUDA数量却是原来的三倍,这无疑是提升性能的更好方式。
GK104的SMX组构成
每一个SM单元中包含16个纹理单元和一个Polymorph2.0引擎以及四个Warp调度器。Warp调度器的配置效仿GF104的设计,下辖两个指令分派单元。这样有足够的数据通道调度192个流处理器。这些流处理器又以六个为一列,每列有专属的LD/ST单元和SFU指令单元。
另外鉴于Intel睿频之灵感,NVIDIA将能耗比的概念彻底升华,在GTX680上也得以实现,在TDP的范围内随着应用的需求而将频率动态提升。1006MHz的默认主频动态调整至1059MHz上看来似乎并没有多大的作用,但毕竟这是首次试水,目的仅仅在于实现,在经过大量测试和收集报告之后,相信在未来的Kepler甚至Maxwell产品中能够火力全开。关于更多具体的介绍请参照首测:开普勒架构惊天巨变 GTX680显卡首测.
网友评论