引爆DX11核武!NVIDIA新君GTX480首测

互联网 | 编辑: 马振华 2010-03-27 12:00:00原创 一键看全文

向多元化迈进 第三代流式处理器解析

● 功能元素更多 第三代流式处理器

第三代SM在架构上引入了多项革新,使其成为迄今为止可编程性最强,资源分配效率最高的SM。每个SM都有32个流处理器,达到了第一代统一渲染SM中处理器数量的四倍。GF100的流处理器转为在着色器的任何负荷下均实现高性能以及高效率而设计。通过采用1D标量通用计算架构,无论输入的指令长短如何,都能100%利用资源。

每个CUDA处理器都有一个完全流水线式的整数算术逻辑单元(ALU)以及浮点单元(FPU)。GF100采用全新的IEEE754-2008浮点标准,能够为单精度以及双精度算术提供融合的FMA(乘法加法)指令。FMA在处理紧密重叠的三角形时能最大限度地减少渲染错误。

全新设计的ALU支持所有指令全32bit精度,符合标准编码程序语言的要求。整数ALU还经过了优化,可有效支持64位以及更高精度的运算。它支持各种指令,其中包括Boolean、移位、移动、比较、转换、位字段提取,位反向插入以及种群统计。

每一个SM都拥有16个载入/储存单元,从而在每个时钟周期内均可为16个线程运算源地址与目标地址。支持的单元能够将每个地址的数据载入和储存到高速缓存或DRAM中。

● 双Warp调度器

SM可对32个为一组的并行线程(Warp)进行调度。每个SM拥有两个Warp调度器以及两个指令分派单元,这样,就能够同时发出和执行两个Warp。GF100的双Warp调度器可选出两个Warp,从每个Warp发出一条指令到16个核心、16个载入/存储单元或4个特殊功能单元。因为Warp是独立执行的,所以GF100的调度器无需检查指令流内部的依存关系。通过利用这种优秀的双指令执行模式,它能够实现接近硬件理论峰值的性能。

● 纹理单元

每个SM都拥有四个纹理单元。每个纹理单元在一个时钟周期内能够计算一个纹理地址并获取四个纹理采样。返回的结果可以是经过过滤的也可以是未过滤的。支持的模式包括双线性、三线性以及各向异性过滤模式。在以往的GT200架构中,最多三个SM共享一个纹理引擎,该引擎含有八个纹理过滤单元。在GF100 架构中,每个SM都拥有自己专用的纹理单元以及一个专用纹理高速缓存。

提示:试试键盘 “← →” 可以实现快速翻页 

一键看全文

本文导航

相关阅读

每日精选

点击查看更多

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑