配比革新 能耗比倍增之奥秘
Kepler架构中的GK104即便只具备8组Polymorph以及256BIT的位宽也能够大幅超越Fermi时代的所有单芯产品,也就是说NVIDIA不再偏执的追求曲面细分和末端输出。保证庞大的着色和顶点运算能力的支撑才是游戏最本质和核心的需求。
Kepler中SMX的配比构成
Kepler中每组流处理器群组SMX中配备了DX11引擎所必须的Polymorph,下辖创建缓存和8个Warp线程指派器,通过路径分配以及映射文件到达下属的192个CUDA核心中,每六颗CUDA核心配备两颗DP,一个LD/ST以及SFU,后端是64KB共享/一级缓存和48KB的只读缓存,最后到纹理贴图单元和ROPS光栅化单元进行像素数据化并输出,如此的配比可以满足海量的填充需求,并且在8个Warp单元调度分配下可以获得极高的单元复用率。
但是在一些特殊的指令或处理需求,在SMX庞大流式运算体系中并不是最完美的被计算出来,我们猜测在此期间可能会存在一些延迟和等待,或是刚从Fermi演化到Kepler直接扩张成极致流处理器群组(SMX)的火候太过了些,从Maxwell开始,SMX就又进行了中和式的改进。
Maxwell重新编排SMM的构成
GM107中的流处理器群组被称作SMM,是以Maxwell的架构而辅助命名,当然核心部分的架构并未变动,最大的变动就是将创建缓存单元,Warp调度单元,路径指派等等搭载32个CUDA,8个LD/ST以及8个SFU和后端的L1以及纹理单元打包成了一组小的SM,总体来说仍然是每组SMM包含128CUDA以及对应的运算单元,但分配调度更加灵活简单。可以通俗的认为支持四条逻辑线程在灵活计算,当然架构图中并没有标出双精度单元DPU具备几个,但我们猜测NVIDIA并没有完全关闭或取消它们,毕竟部分应用还是会用到。
GM107架构示意图
这样以来,共有5组SMM构成的GM107便呈现在了我们眼前,共具备640个CUDA和16个光栅单元以及40个纹理单元,搭载2MB总量的二级缓存和128BIT显存控制器,PCI-E 3.0的总线,直观的提升就是提高核心利用率,有效控制功耗,减少与内存的通信频次以及延迟,并使用当前最高效的PCI-E 3.0信道。
由于结构的重新编排配比,加上一些细微的改进和优化,使得CUDA的单位效率提升了35%,同样的性能输出下能耗下降50%。
网友评论