引爆DX11核武!NVIDIA新君GTX480首测

互联网 | 编辑: 马振华 2010-03-27 12:00:00原创 一键看全文

摧毁DX11性能壁垒 放飞曲面细分

● 高效曲面细分 巧妙设计避免资源浪费

虽然可编程着色让PC游戏能够在每像素特效上与电影相媲美,但是在几何学逼真度上PC游戏还差得很远。当今最先进的PC游戏在每一帧中运用一两百万个多边形。相比之下,计算机生成的电影中每一帧通常会运用数以亿计的多边形。这种巨大的差异在一定程度上可以归咎于硬件,虽然像素着色器的数量已经从一个发展到数以百计,但对于要达如电影般精细的即时渲染仍然显得苍白无力。

在解决几何学逼真度这一问题上,NVIDIA把目光投在了电影上以期获得启发。电影中人物的精细画质归功于两种关键技术:Tessellation(曲面细分)以及Displacement Mapping(贴图置换)。Tessellation能够将大型三角形细化为诸多较小三角形的集合体,而Displacement Mapping则能够改变它们的相对位置。这两种技术相结合,让多变的复杂模型能够通过相对简单的描绘来形成,减轻负担,提高速度。

GF100整个图形流水线旨在为Tessellation与几何学吞吐量提供足够的性能。凭借一款利用多个“PolyMorph引擎”所实现的全新分布式几何学处构,GF100在图形处理流水线的前端取代了传统的几何学处理架构。每一个PolyMorph引擎均包含一个Tessellation单元、一个属性设置单元以及其它几何学处理单元。每一个SM群拥有自己专用的PolyMorph引擎。新生成的基元被四个并行工作的Raster引擎(上代GPU中只有一个Raster引擎)转化为像素。芯片整合的L1以及L2高速缓存能够实现SM与Tessellation单元之间或不同SM之间基元属性的高带宽传输。

为了便于实现较高的三角形速率,NVIDIA设计了一种叫做“PolyMorph”的可扩展几何引擎。每个PolyMorph引擎均拥有自己专用的顶点获取单元以及Tessellator。为与之搭配,NVIDIA还为每个GPC集群设计了一个Raster引擎,它们并行工作,在每个时钟周期内可设置最多四个三角形。这种工作模式能够在三角形获取、Tessellation、以及光栅化等方面实现巨大性能突破。

PolyMorph引擎拥有五个阶段:顶点获取、Tessellation、观察口转换、属性设置以及流式输出。每个阶段中所运算得出的结果均被发送至一个SM。该SM能够执行游戏的着色程序、将结果返回至PolyMorph引擎中的下一个阶段。在所有阶段都完毕之后,结果会被传递给Raster引擎。在PolyMorph引擎处理完基元之后,它们就会被发送至光栅(Raster)引擎。

Raster引擎由三个流水线阶段组成。在边缘设置阶段中,可提取顶点位置、计算三角形边缘方程。没有朝向屏幕方向的三角形都通过背面剔除而删掉了。每一个边缘设置单元在一个时钟周期中最多都能够处理一个点、线或三角形。

光栅器(Rasterizer)为每一个基元而运行边缘方程并计算像素的覆盖。如果开启了抗锯齿功能,那么就会为每一个多采样以及覆盖采样执行覆盖操作。每一个光栅器在每个时钟周期内均可输出8个像素,整个芯片每个时钟周期内总共可输出32个光栅化的像素。

光栅器所生成的像素将被发送至Z坐标压缩单元。Z坐标压缩单元获取像素图块并将图块中像素的深度与显存中的现有像素进行比较。完全处于显存像素后面的像素图块将从流水线中剔除,从而就不再需要进一步的像素着色工作,避免了计算资源的浪费。

PolyMorph引擎为三角形、Tessellation以及流出等方面实现了大幅性能提升。四个并行Raster引擎在三角形设置与光栅化方面能够提供持久的高吞吐量。通过为每一个SM配备一个专用的Tessellator、为每一个GPC配备一个Raster引擎,GF100所能够实现的几何性能可达GT200的8倍。

 

提示:试试键盘 “← →” 可以实现快速翻页 

一键看全文

本文导航

相关阅读

每日精选

点击查看更多

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑