任何一个人想完整描述Nvidia G80的架构,都是一件不可能的事情。在完成这篇通过Nvidia最新GeForce 8800GTX显卡,对G80进行架构分析,特性介绍的文章之后,我不得不得出这个结论。似乎已经很久,没有一款显卡能够同时拥有那么多“新鲜”的地方,一时间那么多新概念充斥而来让
NV 8800GTX官方样卡,19个螺丝才能固定
[NV 8800GTX官方样卡,19个螺丝才能固定]
希望获得更多G80信息?Click Here |
颠覆显卡传统 G80整体及核心架构详解 |
统一架构显卡闹革命 8800GTX软件测试 |
最强渲染舍我其谁 G80游戏测试及体验 |
Mark06轻松1万3 8800GTX样板超频测试 |
任何一个人想完整描述Nvidia G80的架构,都是一件不可能的事情。在完成这篇通过Nvidia最新GeForce 8800GTX显卡,对G80进行架构分析,特性介绍的文章之后,我不得不得出这个结论。似乎已经很久,没有一款显卡能够同时拥有那么多“新鲜”的地方,一时间那么多新概念充斥而来让我多少有些手忙脚乱。即便并没有采用65nm制作工艺和GDDR4显存,8800GTX依然是一款充满“革命”意味的产品。同时即便采用了这些,我也并不认为G80会出现质变的情况,毕竟整体架构已经决定。而舍弃PS与VS分离转为统一着色架构,已经成为G80不同于以往显卡产品的最大特征。DirectX 10改变了显卡核心的架构,G80颠覆了显示适配器领域的传统。
Nvidia将再次通过实力来证明了GeForce这个金字招牌
我们在上一篇文章《过渡中的革命8800GTX测试-软件测试篇》中,向广大网友进行了G80的概述,展示了讯景XFX推出的8800GTX显卡。那么今天在这篇描述架构和特性的文章中,我们将采用一款来自Nvidia官方推出的样卡作为描述对象,回归G80核心的本源。因为时间比较仓促,可能在之后的描述中会有一些疏漏甚至错误,希望广大网友能及时向我提出,同时再次感谢你们一贯的支持。没有你们的支持,EW工作室不会有如今的动力;没有你们的需求,厂商不会仅仅为了赚钱而大力开发新产品。
极度接近最近零售版-Nvidia GeForce 8800GTX官方样卡
这次送至的8800GTX竟然采用了一个全金属密码箱,说明了Nvidia官方的严谨风格及重视程度。从样卡来看,实际与最终出货版本已经没有太大区别。而厂商会根据Nvidia所允许及建议的范围内进行辅料等方面的采购,表面涂装并贴上自己的Logo。虽然这款显卡在GPU核心,NV10芯片(RAMDAC+TMDS输出控制器)等均为工程样品,但根本不影响其实际工作和性能表现。这是一块非常接近最终零售版本的产品。而我们真正关心的则是其核心状态。
小小的金属封盖下竟然安放了将近700M晶体管……
从背板卸下大大小小19个螺丝之后(这是我拆解过螺丝最多的显卡,虽然她并没有附带我所遇见最重的显卡散热器,那么多螺丝确实保证了各点吃力的分担),G80的核心终于真正的展现在我们面前。我们发现这一代的G80核心在外部封装方面又回到了NV30时代——全金属封盖及金属周边封条。从一些资料以及编辑的推断来看,之所以这么做一方面是为了保证巨型散热器不会压坏/磨损核心,同时加强散热;当然更重要的应该是为了更好兼容一体化设计的散热套件。
NV 8800GTX官方样卡,完全可编程统一渲染着色单元
[NV 8800GTX官方样卡,完全可编程统一渲染着色单元]
让我们好好的看看这颗G80核心,虽然这仅仅是一款工程样品。但我可以很明确的告诉大家,最终出货版本与其几乎没有什么差别。从表面的激光刻蚀印字中我们能了解,其核心生产日期为06年第38周,大约是10月初的样子,修订号为A2。而之后的正式版本也同样如此:0638A2,只是在最底部会加入G80-100-KO-A2的核心标示。这款由Nvidia与台湾台积电TSMC共同研发,仍旧采用成熟90nm制作工艺的GPU,晶体管达到了空前的681M之多!虽然没有80nm的支撑,也不能像对90nm至少相对减小13%的核心面积,但我们如今看到的G80仍旧略小于480mm2。而在这之下,到底囊获了多少全新技术和特性呢?
G80核心工程样品0638A2-台湾同胞的自豪之作
如果用一句话来概括8800GTX核心,那么它将是一颗完全兼容微软DirectX 10规范,支持SM 4.0,采用统一着色架构,核心频率575MHz,具有8个TPCs,内置128个运行于1350MHz频率统一着色单元(此处省略相关介绍100字)……的GPU。谁能一口气说完我愿意请你吃一个KFC的鸡翅,如果没有人能做到,那么从这里开始我们将进入核心内部,让我尽力去详细地描述G80并说得通俗易懂一些。洗干净耳朵,Ready?GO!
DirectX 10中对统一着色架构的描述
在DirectX 10之前的显卡产品,我们往往会通过管线Pipeline以及两种着色器:Pixel Shader像素着色引擎和Vertex Shader顶点着色器进行描述。自Nvidia推出GeForce256这款具有划时代意义的显卡之后,GPU乃至之后ATI推行的VPU已经深入人心。原本需要CPU来辅助处理的T&L(Transforming以及Lighting,转换变形与光影效果),被顶点着色器内的硬件T&L所完成,更丰富了光源表现提升了画面质量。在这个时代,显卡的顶点着色器成为一个非常重要的指标。但是随着GPU以及游戏的发展,人们开始发现这种从Vertex顶点处理——>三角形等处理——>平面像素渲染等处理——>ROP输出(Rasterizing OPeration,光栅化引擎,即像素输出处理单元)——>显存交换数据的方式似乎有些不对劲。以往人们只要大幅提升频率,管线数量来提高性能和效果,但现在发现如此般处理流程极为浪费资源和影响性能。特别是对于厂商来说,必须同时满足PS和VS的需求,那么则必须同时在一个核心内融入两种Shader,如今看来这似乎并不是一个好的设计方案。
G80内部架构:完全可编程统一着色/渲染单元
随着时间的推移,人们发现为了应对不同游戏,必须在两种着色器上寻找平衡。许多游戏和3D应用场合中,对每一种着色器的需求并不相同。而与其苦苦计算两者的数量比例,还不如干脆将他们整合,只是在实际处理的时候根据需求调整输出比例。同时在DirectX 10中,除了上述两种着色/渲染模式外,又添加了一种称之为Geomerty Shader(从一些资料中我们了解,这种渲染方式主要将应用于脸部皮肤等高多边形处理状态,提供更为真实的动画渲染等方面的应用)的模式。难道今后我们还要在GPU中加入GS着色器么?正所谓整合才是王道,复杂的设计并不利于日后的研发及生产。于是乎,统一着色架构呼之欲出。
所谓的统一着色架构(Unified Graphics Core Architecture)其实很好理解,便是把那些个着色单元一股脑儿统统“捏”在一起。不再有硬件化的某Shader区分,只是仍旧有不同的渲染方式之别。而8800GTX中则拥有128个统一着色/渲染单元,并拥有自己的工作频率:1350MHz。并通过一个SSI(Small Sets of Instructions)单元进行调配和操控。不管某款游戏需要何种着色单元,无论什么场景或角色需要哪些渲染方式及程度,均由SSI进行控制并通过这128个统一着色器进行自动调控。这么做的好处显而易见,着色器们根据实际需求各司其职,不再有资源空闲和资源浪费的情况出现。同时这也能更好的兼容以往游戏,当然这需要在驱动等方面进行更多配合。所有的运作过程被简化为统一着色单元——>ROP——>显存交换。
NV 8800GTX官方样卡,Gigathread技术以及更多
[NV 8800GTX官方样卡,Gigathread技术以及更多]
在这128个统一着色单元(也是一种向量处理单元,被NV称之为Stream Processor)中,Nvidia引入了Gigathread技术,它的能力或者说作用正如其名:超级多线程。这种技术使得成千个独立而同步的进程可以同时在相关着色器中运行!并在今后全新一代的着色/渲染处理状态下,提供更为出色的输出效果。不过,似乎我们并没有能获得更多关于这项技术的资料。但事实上,Gigathread却是G80面向未来高端3D游戏非常重要的一项技术。
更真实的临场感-同时对更多角色进行高质量渲染
前面我们提到了DirectX 10中引入了Geomerty Shader,而它本身则是一个非常复杂的Vertex函数处理器。从总体来看,它能通过简化而有效的方式进行整个模型的物理形状的确定,减少其它Shader工作量,以此来大幅提升GPU处理速度。而在上一页的DirectX 10核心处理示意图中,我们发现Geomerty Shader通过一种称为Stream Output的技术与显存交换数据。它使得GPU可以反复利用已知的计算结果,并允许Vertex着色引擎继续调用这些数据,减少不必要的重复计算。正因为此,使得G80核心内的Vertex Shader能更好地对纹理拾取提供支持。
统一着色单元,材质单元与片内缓存示意图
管线时代我们面临的另外一个比较重要的规格则是纹理处理单元(Texture Model Unit,简称TMU)。而在8800GTX中,提供了多达64个纹理单元,从而使得其纹理填充率在理论上可达到575MHz x 64=36.8GTexel/s!虽然在ATI X1000时代中,我们发现其通过减少部分TMU来达到减少成本等方面的效果。但似乎这对于不少原有的游戏来说更为重要,或许这也是中低端平台ATI相对弱于Nvidia的地方。虽然今后的游戏可能更偏重于Shader方面的需求,但我们认为Nvidia也并没有接纳少TMU的投入。
而相对于以往,似乎两大厂商对于ROP(Rasterizing OPeration,光栅化引擎,即像素输出处理单元)方面的投入均相对减少,而对于G80来说,看似在数量上也并未增加但在质量上则大大提高了。因为采用384bit位宽的显存模式,对应其规格G80种具备了24个ROPs,每四个为一组。而每个ROP单元在每一个时钟周期可以进行8次Z缓冲(减少不需要的Z轴消隐)操作(总用192次Z Op/Cycle),比以往的各类显卡都有较高的处理能力提升。
NV 8800GTX官方样卡,完整支持SM 4.0技术与HDR+AA
[NV 8800GTX官方样卡,完整支持SM 4.0技术与HDR+AA]
在DirectX 9.0c时代,SM 3.0的引入使得支持其显卡能够在功能和特效等方面有着更高表现。如果当初Nvidia的NV40与ATI的R400时代,支持DirectX 9.0c前者胜过仅支持DirectX 9.0b后者的话;那么在G7X与X1000时代,ATI则通过同时支持HDR+AA(SM 3.0的重要特性)扳回了一局。但是,当时支持HDR则必须通过特别的Decoding处理才能获得。而且其HDR规格也仅仅支持到FP16,但是在SM 4.0中,这一切都被大幅提升。同时Nvidia也因此将其所支持的HDR规格称之为“Ture HDR”。如果说统一着色架构是DirectX 10最重要的组成部分之一,那么SM 4.0便是之二。
曾经被ATI津津乐道的笔直天线-如今Nvidia将做得更好
虽然在GeForce 6800中,Nvidia率先引入了对HDR(High Dynamic Range Render高动态范围渲染,主要在游戏中提供更接近真实的光影效果,明暗表现)的支持。但因为核心架构等方面的因素,即便到了G71时代,如果使用Nvidia显卡进行HDR渲染的话,那么它将占用原本FSAA所需要的缓存区域,这使得HDR+AA在N卡上无法实现,两者不可兼得。而ATI方面则没有这个问题,不过似乎Nvidia对此并不在乎,毕竟那时候能支持HDR的游戏并不多且并不是人人都极为需求,特别是在中低端市场。但这种情况已经一去不复返了,因为进入G80时代之后,Nvidia将提供前所未有的HDR+AA体验。
一张非常详细的对比列表:从DX 8.1到DX10,从SM 1.X到SM 4.0
从这张列表中我们可以看出,对比DirectX 9.0c,Vertex Instructions顶点指令集已经从原本512条被大幅提升至64000条之多!各类暂存器也被增加至4096个。统一架构之后,顶点与像素材质渲染单元也被整合至128个,并且硬件支持RGBE(如今流行的HDR格式,通过添加的E通道进行暴光信息的纪录)。这也就是如今的HDR不再需要额外Decoding处理的原因。如今的G80,其ROP支持8重Render Target,支持对FP16和FP32 Render Target的祯缓冲混合(Frame Buffer Blending),而每一种的祯缓冲都可以运行在FSAA+HDR同时工作模式。这也就意味着,G80支持更高阶的FP32浮点混合处理,比ATI的X1000能直接支持更高段FSAA+HDR:例如同时进行FP32 HDR和16xAA。
更精细的画面表现-4xMSAA与16xCSAA对比示意图
同时,在G80中,Nvidia除了以往的几个FASS模式:MSAA,TSAA(Transparency Adaptive Supersampling,透明动态超级采样),TMAA(Transparency Adaptive Multisampling,透明动态多采样)之外,还引入了全新的CSAA(Coverage Sampling Antialiasing,全覆盖采样)模式,可以支持包括8x、8xQ、16x和16xQ等模式下的全屏抗锯齿功能。这项功能可以通过驱动中进行设置或是打开。而在各项异性过滤AF方面,G80也开始对无失效角度AF(Anisotropic Trilinear MipMapping)进行支持。
tips:据了解,由于ROP处理能力的改进,通过某些针对G80的优化,G80开AA后的性能损失大大减少。当然前提还是这些软件或者说游戏对G80进行优化。
NV 8800GTX官方样卡,Quantum Effects-GPU内物理引擎
[NV 8800GTX官方样卡,Quantum Effects-GPU内物理引擎]
去年中旬,一家名为Ageia的公司开始陆续发布其物理处理卡的相关信息。并在不久之后,不少国内外大厂都表示了对这款产品的兴趣并随之推出成品。同时,包括Nvidia,ATI在内的上游显卡厂商也纷纷发表自己的物理处理解决方案。ATI似乎能通过驱动程序直接让一款副显卡进行处理,而Nvidia似乎必须建立在SLi的基础上。接着,微软也声称将在新一代的DirectX中提供对物理引擎的支持。而最新的消息则是,DirectX 10将放出连个SDK,分别对Ageia与Havok FX的物理引擎解决方案进行支持。
华硕PhysX物理加速卡工程样品
虽然到如今真正支持Ageia物理卡的游戏并不多,但为什么人们以及各大厂商都会对此产生强大的兴趣?在运行以往的不少FPS射击游戏中,作为一个手持各种武器的Superman,你或许会对某些场景中的物体进行疯狂扫射,但往往得到的回应则是简单的黑黑的弹孔,或者随便滚动几下。可是在物理引擎的支持下,那些在实际情况下可动并根据物理特性运动的事物将产生更为真实的表现。换句话说,我们已经不满足于游戏内设定好的这些运动痕迹和规则。扩大到更广义的范围,这些在目前部分游戏中都无法实现的流水、雾气、自由碰撞等大量粒子效果,都能通过物理引擎实时运算并展现优秀的平顺画面和惊人的逼真特效。
Ageia仍旧在雄心勃勃的推广其PhysX物理卡
与我们以前所知的不同,G80并没有采用什么SLi模式来实现物理引擎,而是在GPU内部通过全新的Quantum Effects技术来支持。据了解,这项技术也基于Havok FX的物理引擎解决方案,同时支持FX的物理API和DirectX 10的物理API。而从很少的一些资料中我们得知,这些处理能包括所要体现对象的10000多种物理状态表现,固态物体的物理状态表现,液体的以及布料等等方面的。同时据了解,Nvidia能够使用像PureVideo开启方式一样去支持游戏中的物理特效。而Quantum Effects技术则通过在显卡和驱动之间建立的物理层实现,并使用G80的统一架构作为渲染。
暂时并不清楚Nvidia是否会放弃采用SLi模式来达到物理处理效果。但至少G80是一款单GPU完成物理加速的显卡,不过显然SLi模式则更有利于性能的体现。就在我们打算结束关于G80物理加速能力实现的时候,有一些“不和谐”的声音也随之而来。有人指出G80所采用的Quantum Effects并不能真正达到物理引擎的效果,但在没有更好的驱动协助以及对应的游戏测试后,我们并不能确切地了解其是否如官方所提供的信息那般。不过我相信,很快越来越多的测试将验证这一点。
NV 8800GTX官方样卡,256+128?384还是512bit内存位宽
[NV 8800GTX官方样卡,256+128?384还是512bit内存位宽]
内存位宽有多少重要我想不必再多说。如今市面上出现的那些ATI Radeon X800GTO,搭配的是早应该淘汰的GDDR1显存颗粒,速度和频率都不高却因为256bit位宽而并没有大幅降低整体性能。同样的,面对G80近乎于令人感到恐怖的核心架构,相信原有最高256bit显存位宽确实是远远不够的。所以这一次,当不少人通过各种渠道实现了解Nvidia将有12颗显存位置的时候,384这个数字就被提到了桌子上。看看下面这张图片吧,12颗显存绕了核心大半个圈子,颇有“众星拱月”的意味。
12颗显存位本来是给GDDR4所准备,不过Nvidia,反正也不着急吧……
经过了解我们发现,G80核心内部采用的显存控制器比较独特,竟然是由一个512MB/256bit加上一个256MB/128bit控制器所组合而成,合在一起便是768MB/384bit。似乎直接做成一个384bit显存控制器并不现实,而Nvidia如此这般估计是为了获得更大的兼容性以及方便操控。所以这个384bit完全是256+128bit控制器所得来。不过似乎NVIDIA对这种显存规格还不满足,打算通过Turbo Cache技术共享系统内存,可以扩充到1GB以上的显存容量,显存位宽可达512Bit。不过似乎要达到这个效果你的系统内存最好大一些……对于这种显存的控制和使用方式我们还不是特别清楚,那个128bit控制器所辖的256M显存似乎更应该是一个缓冲区。
tips:Turbo Cache技术是NVIDIA自GeForce 6200 TC引入的共享显存技术,它通过高速全双工的PCI-E x16总线调用系统内存当作显存来使用,如此可以减少显卡板载显存令成本大幅下降。因此TC技术被应用在NVIDIA最低端的显卡之上,比如6200TC和7300LE。NVIDIA高端GPU也有集成TC技术的例子,但不是零售显卡,而是被Sony PS3采用的G71 RSX,它的物理显存界面是128Bit,同时兼有128Bit Turbo Cache界面,可以使用到系统XDR内存作为显存,G71 RSX芯片是NVIDIA第一款采用Turbo Cache的高端产品。基本上来说,如果检查一下NVIDIA G71 RSX芯片,它的物理显存界面是128-bit,同时兼有128-bit Turbo Cache界面,可以使用到系统XDR内存作为显存,G71 RSX芯片是NVIDIA第一款采用Turbo Cache的高端产品。
三星1.1ns GDDR3颗粒-K4J52324QE-BJ1A
要说到现在对于显存颗粒生产工艺掌握最好的,三星则肯定首当其冲。虽然这一次Nvidia仍旧没有采用三星的GDDR4颗粒(良品率还是产能问题?成本还是觉得1.1ns GDDR3对付ATI足够了?),不过1.1ns的GDDR3似乎也并不弱。06年40周生产的这批三星GDDR4颗粒非常之新,其规格16Mx32,颗粒编号K4J52324QE-BJ1A,工作电压1.8V,速度1.1ns,工作频率900MHz(DDR模式下:1800MHz)。突然想现在不少“黄金白银版”显卡都在用1.1ns GDDR3颗粒,意识到自己和世界最强显卡用一样频率的显存,心情是不是会勃然开朗呢~~~笑
NV 8800GTX官方样卡,外置RAMDAC+TMDS芯片及其他
[NV 8800GTX官方样卡,外置RAMDAC+TMDS芯片及其他]
这里也与DirectX 10有关哦,因为采用统一架构之后,G80内部工作频率较高同时芯片内复杂程度大幅提升,使得原有RAMDAC会因为受到较高的电磁影响,同时画面输出效果很可能惨不忍睹。所以RAMDAC等不能再像以往那样被简单集成于GPU核心内。所以这一次Nvidia采用了一颗名为NVIO的芯片,内置了包括双400MHz RAMDAC控制器,支持Dual-Link DVI输出(最高分辨率高达2560*1600,而且是两个!),支持高清晰TV OUT以及HDCP加密功能。
采用FP-BGA封装的NV10芯片,虽然仍旧是一款工程样品
RAMDAC和TMDS(TMDS是一种微分信号机制,可以将象素数据编码,并通过串行连接传递。也就是DVI的核心技术,或者看作是DVI接口工作的通讯协议。)被剥离出GPU核心而成为独立的一颗芯片。虽然从表面上来看,似乎增加了整体成本。但事实上对于这些高端显卡来说,在复杂的架构中植入RAMDAC不如附加芯片来的省力省心,同时更能大幅提升输出质量。(G80正式在核心内支持HDMI 1.3规范,但从现在这些所知的情况来看,并没有出现具有HDMI接口的G80,同时或许真正的HDMI控制器也被集成在这颗NVIO芯片中。)
tips:NV10芯片提供了真正10bit每通道的色彩输出能力,这样G80就可以输出30bit色彩深度的信号,远胜于ATI R580内部10bit色彩通道的设计。
在上一篇文章内,我们并没有把G80拆开给大家看,那么在这里既然我们都看到了GPU核心,自然也能看到那个硕大的散热器。这一次依然是纯铜底+纯钢多鳍片+热管的一体化散热套件设计。这个巨型散热器配合一个同样体型不小的自动调速涡轮风扇,能为显卡表面的GPU核心,显存颗粒,NVIO芯片乃至于多项模块化数字供电部分提供整体散热。(那些可怕的硅胶和软性散热垫给我的拍摄带来了些许困难~~~晕)
同样的,再次放出一些只有拆解之后才能一近芳泽的G80正体,因为在上一篇文章《过渡中的革命8800GTX测试-软件测试篇》中已经对外观,用料等进行了详细的描述,所以这里不再做更多介绍:
说实话,很长时间没有看到Nvidia没有用那么奢侈的辅料了……不过似乎还是X1950XTX更YY? |
Made in USA的Nvidia官方样卡啊……如果拿出去卖掉搞不好比正式版都值钱! |
传说中的8Pin+6Pin原来只是传说……不过为什么两个供电口颜色不一样呢? |
XFX倒是全部三洋SVP,而样卡却似乎有些缩水,虽然蓝色的那些也是Nichicon的高档固态电容 |
NV 8800GTX官方样卡,官方图片展示及编辑总结
[NV 8800GTX官方样卡,官方图片展示及编辑总结]
这里,我们放出一些由Nvidia官方提供的图片展示,让我们能更为直观的了解G80所带来的性能和画面质量提升。当然具体游戏测试我们将在随后的文章中放出。这里就先“借花献佛”一番了。(其中有G80的虚拟3D代言美女Adrianne Curry,不过我还是更欣赏当年那只蝴蝶……还有可爱的青蛙,看皮肤色泽/明暗过渡;Crysis截图?最后两张难道是物理加速对于液体/粒子的展示?)
终于完成了这篇关于G80硬件架构综述的文章,虽然我可以为自己找出类似于时间紧迫,暂无法完全掌握和吃透G80等种种理由,不过似乎也并不过成为潜在问题的解释。所以,如果有任何网友发现任何问题,请你们在第一时间通知到我,让我能及时勘误而不让我的Boss和领导们发现……
而事实上,G80的每一个特性似乎都可以写成一篇文章。毕竟其中包括的内容实在太多,从统一架构到DX 10,从物理引擎到HDR+AA,乃至于供电模块以及NVIO芯片……我始终相信,要真实且全面得描述G80,必须等待Vista+DirectX 10平台正式推出。同时众多支持DX 10的游戏大量上市,包括物理引擎在内的各种应用得到更多支持。也同时,Nvidia官方正式通过WHQL的驱动发布,它必须更好的兼容现有游戏和各类软件,更完善地体现他们并捍卫自己“Reality Redefined”(真实重新定义)口号。
希望获得更多G80信息?Click Here |
颠覆显卡传统 G80整体及核心架构详解 |
统一架构显卡闹革命 8800GTX软件测试 |
最强渲染舍我其谁 G80游戏测试及体验 |
Mark06轻松1万3 8800GTX样板超频测试 |
更多精彩的最新配件资讯,请点击进入PChome!
大家如果对本栏目有任何建议、意见或任何IT配件资讯的投稿,欢迎发邮件到cityrat@staff.pchome.net,我们会尽快给予回复。最后,硬件频道全体同仁感谢大家对PChome一贯的关注和支持!
网友评论