“1216超标量狂潮”引爆SM3.0、HDR、SLI核动力

互联网 | 编辑: 2005-08-23 00:00:00

NVIDIA和骏兆电子公司于8月中下旬开始推动“1216超标量狂潮”活动,12条“超标量”流水的GeForce 6800 PCI-E和16条“超标量”流水线的GeForce 6800GT PCI-E显卡正在引导一起高端应用的“质价比”的新消费观念。

    NVIDIA和骏兆电子公司于8月中下旬开始推动“1216超标量狂潮”活动,12条“超标量”流水的GeForce 6800 PCI-E16条“超标量”流水线的GeForce 6800GT PCI-E显卡正在引导一起高端应用的“质价比”的新消费观念。当技术价值的走向,与“频率至上”彻底决裂之后,核心架构的“效率至上”和为用户带来新应用和利益的“应用品质至上”成为当今产品最终极价值判定标准。基于此两种价值标准,NVIDIAGeForce6开始采用全新具有极大创造力的“超标量”核心架构,该架构可以在较低工作频率下获得其它架构更高的性能,非NVIDIA“超标量”核心架构设计的图形卡,必须要硬性提高自身的频率才能达到NVIDIA较低频率下获得的性能表现,如果按照全新的管线(流水线)产品市场定位规则,在相同流水线数量的情况下,以“性能分数/MHZ”的标准来标识NVIDIAGeForce 6系列显卡的话,显而易见,GeForce 6的“超标量”核心架构带来的效率是最高的,也就是说:其每MHZ的频率下所获得的性能分数远远抛离非NVIDIA核心的图形卡。这就是为什么说“超标量”的效率是产品的核心价值之一,不过,今天,谈“超标量”GPU架构可能对大多数人而言,不太直观便于理解,毕竟这是NVIDIA架构师的事业,对于普通用户而言,那涉及太艰深的探索。我们就来了解,“1216超标量狂潮”除了带来了高效率核心GPU,也同时为用户带来了实实在在可以体验到的最富价值的全新应用,这些应用全是NVIDIA公司发布GeForce 6系列产品才能提供支持特效品质应用,当然,也包括GeForce6800 PCI-EGeForce 6800GT PCI-E显卡在内。

当年的Riva128让我们认识了NVIDIA,而后的TNT系列更是告诉业界3dfx不是3D游戏的唯一,其后的Geforce系列将3dfx赶下神坛并最终奠定霸主地位。毫无疑问,NVIDIA的发展之路可谓一帆风顺。然而如日中天的NVIDIA还远没有到“一览众山小”的境界,ATI的紧追不舍使其如坐针毡。不过NVIDIA还是始终保持技术上的领先,如今SM3.0HDRSLI已经成为其统治业界的三大利器。

突破画质极限——Shader Model 3.0

速度上的过分追求已经使玩家对3D游戏失去了兴趣,因此画质越来越得到业界的重视。继Pixel ShaderVertex Shader出现之后,整个游戏市场发生了翻天覆地的变化,如今DirectX 9.0C已经成为一种潮流。从目前的3D游戏发展趋势来看,Pixel ShaderVertex Shader正体现出越来越大的作用,以《寂静岭III》以及《波斯王子时子砂》为代表的部分游戏甚至指定要求显卡具备Pixel Shader单元才能运行。然而不得不承认,无论是GeForce FX5950U还是Radeon 9800XT,其Shader单元的性能还在初级阶段,一定程度上限制了应用与最终效果。

着色器(Shader)是渲染像素和顶点的小程序,分为像素着色器和顶点着色器两种类型。这些程序能够向基本的几何图形添加效果,例如,向蓝色纹理平面添加水纹使其具有反射效果,也可向多边形纹理添加玻璃效果使其具有透明的视觉特性。现在游戏画面的品质要比三四年前好许多,着色器的作用功不可没。

GeForce 6在核心设计时就将Shader部分作为重点,其整个体系架构可以分为三大块,分别是Vertex Shader(顶点着色器)、Pixel Shader(像素着色器)和ROP(像素结果输出处理器)。GeForce  6800GT拥有6Vertex Shader16Pixel Shader16ROP。通过ShaderMake 2.0测试软件对比,GeForce 6800 Ultra在这一部分的性能提升令人惊讶,这也注定Pixel ShaderVertex Shader将会在未来的各种3D游戏中进一步普及。

Shader Model 3.0架构的GF 6800在分裂细胞中有着出色表现

不仅仅是Shader Model体系架构的提升,NVIDIA还升级了Pixel Shader的版本,从2.0跃迁到3.0。客观来说,在目前的游戏引擎中,Pixel Shader 3.0Pixel Shader 2.0起到提升性能和画质的目的。事实上Pixel Shader3.0对于游戏编程人员的意义更大,它支持无限代码长度的程序处理,提供新的分支指令,能够轻松调用子程序,让编程更为轻松,效率提升显著,这对程序员来讲是一大喜事。

在某些情况下,终止一个程序和开始另一个程序的开销,降低了游戏的速度并使得这种效果的应用变得不切实际。由于不再强迫将每个像素着色器程序压缩到96条指令中,因此程序员现在可以从硬件限制中解脱出来,可以在像素级别执行更复杂的效果。当着色器程序不再有长度限制时,复杂效果可以编写成能够榨取游戏平台的所有性能。即使较长的程序的处理时间比较短程序的更长,但是CineFX 3.0引擎具有的技术和速度确保较长的程序依然可以运行如飞。同时,Shader Model 3.0支持动态程序流控制,额外的循环/分支选项和新的子程序调用/返回功能给与程序员更多的选择,以开发出更有效率的着色器程序。Shader Model 3.0完全支持子程序、循环和分支、包含循环计数寄存器和条件码以及一个新的back/face寄存器,给与了程序员完整的控制能力。没有了长度的限制,再加上增强的程序流控制,Shader Model 3.0给予程序员空前的自由度,可以为游戏世界释放出全新画质与速度的创造力。

 

 

2.0a

3.0

指令槽数量(# of instruction slots

256

>=512

最高可执行指令数(Max # of instructions executed

65535

65535

指令推断(Instruction Predication

变量寄存器(Temp Registers

13

32

常量寄存器(# constant registers

>=256

>=256

静态流控制(Static Flow Control

动态流控制(Dynamic Flow Control

动态流控制深度(Dynamic Flow Control Depth

24

24

顶点贴图(Vertex Texturing

-

贴图取样器数量(# of texture samplers

-

4

几何引证(Geometry Instancing Support

-

 

由于着色器具有可编辑性,游戏开发者可根据需要为产品打造出独特的视觉效果。NVIDIA有适合显卡的着色器标准库。在不需要特定效果时,开发者也可以直接调用这些标准库。在Shader Model 3.0的帮助下,开发人员的操作难度大幅度降低,从而令越来越多的游戏更多利用这些特效,奠定普及应用的基础。

《分裂细胞3》只支持Shader Model 3.01.1

目前已经有13款游戏支持Shader Model 3.0,其中包括游戏玩家所熟悉的《Lord of the Rings:Battle for the middle earth》、《Vampire: Bloodlines》、《Far Cry trough Patch.》等等,当然还有大名鼎鼎的Half Life 2ATi系列显卡在Far Cry 1.1版采用的Shader Model 2.0时,具有较佳的画质和效能表现,但之后Far Cry在推出1.2版时所采用的Shader Model 3.0,就变成只有NVIDIAGeForce 67800系列独家支持。Far Cry 1.2版正式发表后,马上被世界各地的玩家发现,以ATiX800系列执行游戏时,经常会发生严重的贴图错误,这让原本已经在Shader Model 3.0上居于劣势的ATi阵营更是雪上加霜,而NVIDIA显卡将会逐渐占据越来越明显的优势。

 

我要最真实的亮度画面——High-Precision Dynamic-Range

电脑上能够显示的颜色目前是红、绿、蓝、Alpha4个通道,每个通道8bit,也就是每个通道上2^8=256种颜色,存储一种颜色就需要48bit的空间,是32bit的空间。可是实际处理图片的精度依然不能满足要求,随着进一步图形处理运算,颜色部分就会产生变化,那么这么就很难保证以后依然是标准的1/256了,累计下去必然会有非证书的颜色存在,再经过多次运算以后自然就行成了色彩细节丢失问题,譬如无法再现真实自然的光照情况。

HDR文件是一种特殊图形文件格式,它的每一个像素除了普通的RGB信息,还有该点的实际亮度信息。普通的图形文件每个像素只有0255的灰度范围,这实际上是不够的。想象一下太阳的发光强度和一个纯黑的物体之间的灰度范围或者说亮度范围的差别,远远超过了256个级别。因此,一张普通的白天风景图片,看上去白云和太阳可能都呈现是同样的灰度/亮度,都是纯白色,但实际上白云和太阳之间实际的亮度不可能一样,它们之间的亮度差别是巨大的。因此,普通的图形文件格式是很不精确的,远远没有纪录到现实世界的实际状况。

《毁灭战士3》开启和未开启HDR效果的比较

Dynamic Range(动态范围)是指一个场景的最亮和最暗部分之间的相对比值。一张HDR图片,它记录了远远超出256个级别的实际场景的亮度值,超出的部分在屏幕上是显示不出来的。可以这样想象:在Photoshop里打开一张从室内往窗外外拍的图片,窗外的部分处在强烈的阳光下,曝光过度,呈现的是一片白色,没有多少细节。你将毫无办法,调暗只会把变成灰色而已,并不会呈现更多的细节。但如果同一场景是由HDR纪录的话,你减低曝光度,原来纯白的部分将会呈现更多的细节。

首款支持HDR技术的赛车游戏

GeForce 6800GTGF6800系列显卡中加入了High-Precision Dynamic-RangeHDR)技术,这与上述的HDR文件有着异曲同工之妙。HDR特效是与Vertex ShaderParallax Mapping等等技术并列的图像渲染特效。想要实现HDR特效,首先,游戏开发者要在游戏开发过程中利用开发工具(游戏引擎)将实际场景用HDR记录下来,当然开发技术出色的开发小组会直接用小开发工具(比如3D MAX的某些特效插件)创造HDRI图像;其次,大家的显卡必须支持显示HDR特效。

尽管从原理上阐述HDR特效非常简单,但是其实际工作难度可并不低,因为显卡核心必须在运算过程中采用精确度更高的高精度浮点值来存储颜色。传统的用来存储颜色的32位寄存器显然已经不够用了,NVIDIAGeForce 6系列图形芯片会自动采用更大的非标准寄存器来存储颜色数据,只是在最后显示的步骤再转换成标准的颜色数据。

更为复杂的是,为了实现这种渲染方式,GPU必须具备浮点精度的着色、混合、滤波以及贴图功能。此外为了保证速度,GPU还不得不把这些色彩数据以原有精度(或近似原有精度)存储起来。因为只有这样,浮点数据的对数特性能够被保存起来,如果中间处理的结果仍以每像素256bit存储,那么GPU所具备的一切浮点颜色处理都等于是白费。为了实现这样的效果,GeForce 6系列GPU原生操作模式下提出了新的概念,包括浮点着色、浮点混合和浮点滤波等技术,并且无需像素着色器程序编码或者解码。

目前不仅仅是NVIDIA,其它厂商也宣称其GPU支持HDR技术,然而从最真实的实际游戏测试来看,不少所谓的“支持”令人值得怀疑。下图便是X800GF 6800分别打开HDR时的对比,此时可以发现X800并没有展现出明显的效果,至少并不如GF 6800所表现得那样明显。

X800GF 6800HDR效果对比

 

继承3DFX遗志:SLI技术傲视群雄

Voodoo1的巨大成功使3DFX的势力迅速壮大,彻底将S3以及Trident等昔日霸主赶下王座。而令众多玩家翘首期盼的Voodoo2延续了3DFX的辉煌,众多3DFX的死敌更是难以望其项背。Voodoo2的杀手锏自然是至今还为老玩家津津乐道的SLI工作模式。这种被称之为SLI的技术允许在一台电脑中同时使用两块Voodoo2,它们之间通过一条传输电缆相联,两块卡分别处理屏幕上的奇偶线级信号,令速度直接增加一倍。而后,业界曾经出现采用AGP接口并直接集成两个Voodoo2芯片的超级显卡,尽管其本质与双PCI一样,但是却告诉我们这样一个事实:双芯片既可以集成于单显卡,也能通过双显卡方式工作。

进入AGP时代之后,由于总线地位的独立性,不可能出现双AGP显卡的SLI模式,此时双芯片集成于单显卡是唯一的途径。为此,3DFXVoodoo5ATIRage FuryMax以及XGIVolari Duo V8都曾作出伟大的尝试。然而从实际效果来看,“哗众取宠”几乎成为大多数用户对其的评价。双芯片技术并非一无是处,至少相对单芯片的巨大性能提升是不可抹杀的。然而问题的关键在于成本控制与产品定位。双芯片技术势必成本高昂,而且AGP时代的集成模式断绝了单芯片显卡用户今后的升级空间。更为重要的是,无论是哪一款用于双芯片核心,它们都不是当时业界的顶级产品,这与七年前Voodoo2的背景相差太远。指望双芯片技术来达到竞争对手的同等水平,这本身就是一个笑话,因为产品间的竞争不仅仅是性能,控制成本同样不可忽视。双芯片技术的最终目的是“更上一层楼”,而绝非“弥补差距”。当年的VSA100远不及Geforce2 GTSRage核心也无法与同时代的TNT2 相提并论,Volari Duo V8更是在NVIDIAATI的双重夹逼下苦苦挣扎。毫无疑问,只有NVIDIA这样的业界霸主才有资格推出双芯片技术。

NVIDIA SLI 技术采用一种“高速数字连接机制”来实现双卡互连,两块显卡的相互通讯则基于图形核心内建的专利通讯协议。与3DFX的隔行分别渲染方式不同,NVIDIASLI技术将画面分为上、下两个部分进行处理。一张显卡负责上半部的区域,另一张显卡则负责下半部的区域。当其中一块画面区域的图形较另一块区域复杂时,资料量平衡软件将用来确保工作量被平均分配到这两张卡上。值得注意的是,画面区域的划分并不是按照固定的一半一半方式,反而非常灵活。使用动态的负载平衡技术,可以保证两块显卡都处于最高工作状态。例如在大家非常熟悉的第一人称或赛车游戏中,画面下半部分通常更加复杂,需要处理的数据量也更多,而上半部分则多为静态画面。此时两块显卡的负责的上下两部分画面区域可能为7382的比例,而不是简单的五五开,这样能够保证性能的充分发挥。

Voodoo2的传统奇偶分工方式

NVIDIA SLI的智能分工方式

以往Voodoo2 SLI需要使用一条数据线来连接,那么NVIDIASLI技术又如何连接两块NV45呢?事实上 NVIDIASLI可扩展性主要由NV45核心内建的MIO单元来实现。同时在MIO单元的旁边,还集成如TMDS Transmission-Minimized Differential Signaling,传输最小差动讯号)发送器以及数模转换器(RAMDAC)等负责视频输出的单元。从概念上说,NV45对可扩展性的支持并不只限于2颗图形核心,多颗图形核心也有可能实现对可扩展性的支持。而SLI 技术所做的第一个改变(或许是唯一改变)就是将NV45的对可扩展性的支持限制在两颗图形核心。

两块Geforce 6800GT PCI-E SLI模式连接工作

SLI 技术下,两块图形卡采用类似于主/从模式的工作方式,其中主卡负责视频输出,而从卡则负责处理供主卡输出的数据,且从卡本身不需要和任何显示设备相连接。与Voodoo 2的模拟SLI连接不同,NVIDIA SLI采用的是数字传输方式,通过一个迷你的UPCB电路板连接器可以防止因为信号干扰所导致的画面不同步问题。不过更加令人吃惊的是,如今NVIDIA已经彻底放开了SLI技术的限制,不仅仅是GF 6600GT/6800/7800系列,甚至标准版GF 66006600LE也能实现SLI技术。目前GF 66006600LE的价格已经非常平易近人,再加上nForce4 SLI芯片组不断降价,打造廉价高性能的SLI平台已经不是遥不可及的事情。

更多精彩的最新配件资讯,请点击进入 硬件中心

大家如果对本栏目有任何建议、意见或任何IT配件资讯的投稿,欢迎发邮件!到archer@staff.pchome.net,我们会尽快给予回复。最后,硬件中心全体同仁感谢大家对PChome一贯的关注和支持!

相关阅读

每日精选

点击查看更多

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑