前言
早在6月份nVIDIA发布核心代号为G70的Geforce 7800GTX的时候,我们便可以发现在其采用的P347的公版底板上预留了8颗GDDR3显存颗粒的焊位,当时我们曾经作过以下推断:“使用G70核心的GeForce 7800Ultra估计将会在R520发布并取得对GTX压倒性胜利之后伺机发布,除显存和核心频率的提高之外还会采用全数32条像素渲染管线,相反,如果GTX能在和R520的较量中得到较大胜利,那么估计7800 GTX ULTRA版本很大可能会流产,直接以相同的管线和512MB缓存推出大容量显存的加强型GTX。”而如今事实也证明了我们之前的推测,Geforce 7800GTX 512m版本在今天正式发布。
在不断跳票后,早前ATi终于推出新一代旗舰产品R520,虽然R520只是拥有16条Pixel Shader管线和8个Vertex Shader引擎,和之前ATi的旗舰产品R480的16条Pixel Shader管线和6个Vertex Shader引擎相去不远,但是凭借全新改良过的Ultra-Threaded Shader Architecure 3D引擎,崭新的512-Bit Ring Bus Memory Controller高速显存控制单元,令到Shader引擎的效能有长足的提升,此外超高的预设频率为效能强劲的Shader引擎提供了强大的处理能力。凭借强悍的效能,16Pixel Pipeline的Radeon X1800XT在和24Pixel Pipeline的Geforce 7800GTX的抗衡中取得了不俗的成绩,根据之前的测试,我们可以知道即便是只有16Pixel Pipeline,Radeon X1800XT仍然是以较大的胜利将性能王座夺下。
当然,nVIDIA在Geforce 7800GTX身上的伏笔就是要对付R520而留下的,X1800XT既然发布了,作为螳螂捕蝉,黄雀在后的Geforce 7800GTX 512m同样也应运而生,但是要知道,Geforce 7800GTX 512m并不仅仅只有显存容量上的进化,同时借助成熟的TSMC 0.11微米工艺和业界顶尖的Samsung 1.1ns GDDR3显存,Geforce 7800GTX 512m的预设频率高达550MHz/1700MHz,比之前的旗舰Geforce 7800GTX的430MHz/1200MHz高出很多。7800GTX 512m的发布,无疑等于nVIDIA向对手和向市场的宣言——性能之王非他莫属。
前言
在硬件架构上,Geforce 7800GTX 512m与7800GTX保持一致。和上代旗舰NV40相比,核心的制程由0.13μm进化至0.11μm,核心技术依旧支持Shader API Programmable Shader 3.0并在算法上加以强化,除Pixel Shader管线增加到24个,顶点着色单元增加到8个之外,此外7800 GTX还新增加/加强了透明材质智能采样抗锯齿、次表面散射、Relief Mapping、64Bit HDR运算、法线贴图压缩、光能传递贴图算法等一系列即将在下一代游戏中广泛出现的技术。
Geforce 7800 GTX的die为18.60mm×18.60mm封装,采用TSMC的0.11微米工艺制造,核心面积超过300mm平方。在制程方面,nVIDIA采用目前成熟的0.11微米是十分明智的,毕竟高端产品并不是新制程的试金石,NV30的失败就是一个很好的例子,不过,比较戏剧化的是ATI发表的R520也备受0.09新制程的困扰。
G70 Pixel Shader架构分析
Geforce 7800 GTX的Vertex Shader和Pixel Shader依旧保持为传统的独立分离式结构,Vertex Shader构造与上一代旗舰NV40惊人地相似。恐怕在机能上没有很大的变更。其中Vertex Shader架构只是增强了Shader数以及强化了Setup Engine的能力。据官方的白皮书指出,Vertex Shader的数量从NV40的6 UNIT提升到G70 的8 UNIT,增加到33%了。改进的Setup Engine在处理数据能力上提高了将近50%。
Vertex Shader上的演算UNIT有一个4way矢量UNIT和一个标量UNIT。矢量UNIT支持3D图形中多数采用的MADD,而且MADD能每周期实行。标量UNIT则主要用于三角函数和对数等特殊作业。 无论是矢量还是标量UNIT都支持32bit单精度浮动小数点形式。在NV40/G70中,这两UNIT各自发行命令,而且能一并进行处理。
GPU的Shader方面,DirectX的话用API,OpenGL的话用JIT编译程序,将Shader的指令集屏蔽,为此,GPU可自由设计Shader的原始指令集。也就是说,能够导入大幅度革新指令集水平的设计。 nVIDIA利用这点,在NV40中的Vertex Shader原始ISA并非采用能够以单周期同时处理多项数据的SIMD(Single Instruction Multiple Data),而是以多项命令同时处理多项数据的MIMD (Multiple Instruction, Multiple Data)。此外,NV40的Vertex Shader拥有128bit长的VLIW型指令集。从G70的Vertex Shader构造和规格书都与NV40一样,或推测它们也拥有同样的指令集。顺便说一句,在NV40的Shader中,Pixel Shader也是拥有SIMD型的命令 / DATA FORMAT,通常的GPU也为SIMD型。
G70 Vertex Shader架构分析
NV40系列的Vertex Shader各个Shader可实现最大3线的多线程。为此,G70也应该具备同等甚至以上的多线程功能。Vertex Shade也像Texture Fetch那样,潜伏时间需进行长处理,即使动态分歧也有可能会令管道混乱,为了避免重蹈在NV30结构上出现的管道数据流停止状态,所以才要进行多线程化。
G70 Pixel Shader剖析
G70搭配了总共24个Pixel Shader。从图中可看到,Pixel Shader以4 UNIT为一束,是因为要以4 UNIT为单位对Pixel Shader进行控制。nVIDIA据说把向来的以4个邻接的象素作为1个单位去控制透视图管子。这次单纯就如图中所示一般。估计是以4象素一起输入、输出来进行控制。ATI的RADEON 9700(R300)系列等也进行同种的控制。
在NV40 / G70体系结构中,Vertex Shader 是单一的,而Pixel Shader则构造非常复杂。 特别是G70里的Pixel Shader数不但从16 UNIT增加到24 UNIT,增幅50%,而且Shader内部也被扩张了。为此、Vertex Shader和Pixel Shader的非对称性发展越来越强。
在仔细揣摩官方的白皮书后,不难推测nVIDIA基本的想法为:以提高Pixel Shader内的并列性,来提高Shader“指令级并行计算 (Instruction-Level Parallelism:ILP) ”的方向性。NV40的Pixel Shader在内部有2个矢量UNIT,两个4way矢量UNIT并列进行。不过,NV40只有一个UNIT能进行MADD,所以无法实现最频繁使用的MADD并列化。G70的这个部分得到改良,可以进行两Shader UNIT的MADD。图中2个Shader UNIT虽然呈纵排列,但实际上2个Shader UNIT能并列地发行命令。上边的Shader UNIT NV40正共有组织处理器和一部分资源。 如果G70是同一构造,就有不能并列演算的情况。
Pixel Shader的两矢量UNIT中,有被称为Mini-ALU的标量演算UNIT附属其中。Mini-ALU在PS3 RSX的Graphic Engine中充当SFU(Special Function Unit)了。 看来是和Vertex Shader的标量UNIT为同一种类的UNIT。
G70 ROP架构分析
经历了从NV30的ROP引擎确立到NV40 ROP(Rasterizing OPeration)引擎的发展,7800 GTX的ROP数量保持了和NV40相同的16单位上,并没有随着Pixel Shader的增加而增加。从下图截取自NV40和G70核心的ROP单元结构图可见,两者ROP单元内部并没有在功能以及构造上的区别。实际上,ROP单元是一组从Pixel Shader分离出来,主要用于对从Pixel Shader引擎中输出的速降进行抗锯齿以及处理Z轴、色彩压缩的POST Shader处理单元,在7800 GTX的核心结构上,随着Pixel Shader和vs管线数量和G70核心速度的提高,单周期内 Pixel Shader 内部的处理越来越花时间,每一个像素在Pixel Shader中需要的处理周期都随着日后游戏以及相关软件的发展而大幅增加,在单周期内不一定会有待处理像素下降到ROP单元,也就是说,每周期的Pixel Shader的像素输出/ROP需要处理的数据有减少的趋势。于是,考虑到Pixel Shader-ROP负载的平衡性、核心制造工艺以及整卡的成本问题,7800 GTX没有再在16单元上添加更多的ROP单元,着重改善了FP处理算法以及增加TAA模式下的超级采样和多重采样。
在NV40时代开始,nVIDIA就将三角形生成率以及像素填充率作为重要的性能指标,随着显卡图形处理的重点逐渐移到Shader单元,以往的关于制程、速度等性能指标都变得无甚重要,玩家更加看重的是Shader的性能,可惜的是现在还没有确立关于Shader性能的测试标准。因此在衡量一个GPU运行/运算能力的时候,可以采用判定CPU性能的一些关键指标,如Operations (Instructions) / sec和FLOPS(Floating Operations per Second)。
G70 Shader运算性能分析
nVIDIA发表的技术文档中提到G70的Shader运算性能是313 GFLOPS(430MHz时)。 这个比起Microsoft发表的Xbox 360 GPU的240 GFLOPS更大。NV40发表时的Shader演算性能是120 GFLOPS,到G70时代是成倍的增加。为什么G70的Shader演算性能如此高呢?其中最重要的就是加入了可以进行交错运算的Shader单元以及MADD优化运算装置,根据官方资料以及一些简单的推算可以得出如下的一些理论性指标:
首先,从Vertex Shader 计算一下G70的运算性能:G70的Vertex Shader采用 4 way VLIW UNIT + 1 标量UNIT,并列演算5项数据。能各自进行积和算,每一循环的浮动小数点操作为10。Vertex Shader有8个,动作脉冲是430MHz,所以计算如下。
(4way+1scalar) x 2 FPoperations(MADD) x 8 Shader x 430MHz = 34.4GFLOPS
另外因为Vertex Shader会issue的命令有2个,所以命令数可以作如下推算。
2issue x 8 Shader x 430MHz = 6.88GInstructions/sec
接着是Pixel Shader。这里有4way的SIMD UNIT,共 2 UNIT,两边每周期均可进行MADD。 仅仅是SIMD UNIT就可以并列演算8组数据。因此计算如下。
4way x 2 Units x 2 FPoperations(MADD) = 16 FPoperations / cycle。
此外,两矢量UNIT中各有被称为Mini-ALU的辅助演算UNIT。nVIDIA表示,这些UNIT也能进行并列动作。 而且可以并列进行7个FP16 normalize 处理。
2scalar x 2 FPoperations + 7 normalize = 11 FPoperations / cycle
这样一来,Pixel Shader 1 UNIT的Shader浮点运算为27。 Pixel Shader共有24 UNIT,最高的演算性能如下。
27 FPoperations x 24 Shader x 430MHz = 278.6GFLOPS
Pixel Shader能发出的命令最大为5。 首先,两SIMD UNIT分别最大可以分割成2个命令。 也就是,将4way的SIMD分割成3:1或2:2,然后在各自的数据要素中发出别的命令。在颜色通道 4要素的RGBA中,RGB和Alpha多数会被个别处理。因此如果能对RGB和Alpha能分别进行并列演算的话,很大可能会提高并列处理性能。
在Pixel Shader中可以同时发出1命令,加上对组织处理器和SFU(Mini-ALU)发出的命令,NV40最大为6命令/周期。G70是5命令/周期,不过估计是除去处理器剔除不计的数据。无论如何,若是同时发出5命令,那么Pixel Shader群全体的命令数如下。
5issue x 24 Shader x 430MHz = 51.6GInstructions/sec
R520 Pixel Shader架构分析
下面再让我们来看看Geforce 7800GTX 512m的对手X1800XT的硬件规格。前面我们曾经提及16Pixel Pipeline的R520凭借Ultra-Threaded Pixel Shader Engine达到最大限度地提升Shader的效能。优化动态分支(Dynamic Branching)的执行能力是R520改良型超线程像素渲染引擎的最大特点。
Ultra-Threaded Pixel Shader Engine的作用其实很简单,就如上图所看到,Ultra-Threaded Pixel Shader Engine将一个大的Pixel Shader运算拆分为若干个较小的执行段落,再交由各个Pixel Shader单元完成。根据ATi的官方资料,R520能够同时处理512个Pixel Shader运算执行段落,并且能够处理2x2个Pixel Blocks。也就是说,Dynamic Branching的执行效能将被大大提高。而Ultra-Threaded Pixel Shader Engine能够不断检测各个Pixel Shader单元的运算情况,当发现某Pixel Shader单元处于闲置状态,马上就会向其分派新的Pixel Shader运算执行段落。
R520 Vertex Shader架构分析
除了Pixel Shader单元的大幅改进外,R520还提供了Vertex Shader 3.0版本的支持,而且可以执行一个128bit长度的浮点数据或是四个32bit浮点数据的组合。而R520的Vertex Shader引擎是目前唯一可以每秒执行10亿个Vertex Shader指令的Vertex Shader引擎。
R520环形显存架构分析
除了大幅优化改进的PS/VS引擎外,R520还提出512-Bit Ring Bus Memory Controller高速显存控制单元的概念,进一步提高其效能。如果我们将显存带宽看成是一条路,而数据而是车流的话,不难看到越大的显存位宽对于巨大的数据传输有着相当大的好处,而R520虽然显存外部接口的带宽只是维持高端显卡的256bit,但在其内部却拥有一个512bit的架构。这个所谓的512bit架构其实可以简单看成是两个256bit环形通道的结合。通过两个256bit环形通道上的四个环状中止处和8组内存客户端程序,可以达到绝大多数情况下数据只经一个环状中止处就到达目的地,比起之前的数据交换模式有了大幅的改进,能够有效地减少数据交换的延迟而达到提高性能的目的。
此外R520采用全新的显存架构,由R480的4x64bit改良为8x32bit,如此以来很容易就可以知道在处理一些零散的数据或是较小的数据时,R520比R480要快得多。此外在视频输出方面R520也作出了重大改进,支持64bit HDR技术以及AVIVO技术令到其面对对手的PureVideo时不再尴尬。
G70、R520规格一览
下面再让我们来了解一下7800GTX两个版本和其主要对手X1800XT的规格:
产品介绍
一如之前的Geforce 7800GTX和Geforce 7800GT,首先登陆PCHome评测室的是两块来自nVIDIA最高级别合作伙伴XFX讯景的Geforce 7800GTX 512m。其第一印象与Quadro FX4500非常相似,采用双slot设计的TM40 Active Fan Sink散热器。
和之前的旗舰Geforce 7800GTX相比,Geforce 7800GTX 512m的外观显得相当夸张。第一批Geforce 7800GTX 512m都无一例外地采用P378公版设计,Geforce 7800GTX 512m没有沿用Geforce 7800GTX的P347公版设计,而采用全新的P378公版设计,主要原因是因为Geforce 7800GTX 512m采用目前业界最顶尖的Samsung 1.1ns GDDR3显存颗粒,而Samsung 1.1ns GDDR3采用的136pin无法与之前的144pin兼容,因而要开发新的公版。
产品介绍
同时因为核心频率由Geforce 7800GTX的430MHz激超到550MHz,而显存频率也运行在业界最高的1700MHz,因而对PCB的供电模块要求更加高,因而新的P378同样在供电模块上作出了少许改进。但是主要的供电部分依然是三组3×3英飞凌功率管、三组VITEC高频电感、显卡背面的ISL6592六相数控PWM,以及ISL6534CRZ整流器的组合。
通过仔细对比,可以发现Geforce 7800GTX 512m采用的P378公版在正面的供电部分上多出了一个1R0的片式封闭磁电感加上一对三洋钽电容和4个钽电容的增强供电补足。在卡的背面配置了一颗ISL的6592DNZ六相数控PWM以及ISL6534CRZ整流器作为整个供电部分的控制中枢。可以说整个供电系统和P347公版几乎一样。
产品介绍
作为Geforce 7800系列中的旗舰产品,有着超高频率的性能之王,Geforce 7800GTX 512m不会也不能再采用之前在7800GTX上的单插槽涡轮风扇散热器,而采用和Quadro FX4500相同的双slot设计的TM40 Active Fan Sink散热器,号称Ultra-Quiet Active Fansink(超静音主动式散热器)。虽然散热器需要占用多以个PCI插槽,但是无论是噪音控制还是散热效能都是无可挑剔的。
底部采用铜铝结合设计,由较大面积的铜迅速将核心所发出的高热吸收,而由四条铝质热管将核心的热量带到散热器前后的鳍片上,利用铝质散热快的特点,由位于散热器中间的8CM风扇所带出的风量将热量带走。整个散热器的设计就像改进了的Arctic Cooling散热器,简单而高效。其中位于中部的8CM散热风扇是采用了PWM温度控制,能够根据核心的温度而改变转速,在显卡运行时,风扇显得相当安静。
产品介绍
和Geforce 7800GTX一致,显卡的VIVO部分采用菲利浦的SAA7115HL视频处理芯片作为核心处理芯片,是目前唯一可提供双9位低噪音、2x过抽样模拟到数字转换的视频解码器,可为小屏幕产品(如数码机顶盒、个人视频录像机)和大屏幕设备(如液晶投影仪和高清晰度电视)等各种应用捕捉视频。此外,SAA7115HL具备全自动标准检测功能,可解码NTSC,PAL和SECAM信号。
作为nVIDIA最强的显卡,Geforce 7800GTX 512m被赋予了目前最强的显存颗粒——Samsung 1.1ns GDDR3,编号为K4J52324QC-BJ11,单颗容量为64m。熟悉业界的朋友都知道早前三星开始转产其采用无铅技术生产的GDDR3显存,其中重要的改动就是从144pin改进为136pin,符合欧洲市场电子产品无铅化的环保标准。显卡预设显存频率高达前所未有的1700MHz,而更为恐怖的是,显存理论最高频率为1800MHz,也就是说Geforce 7800GTX 512m有着相当大的超频空间。我们收到的XFX Geforce 7800GTX 512m预设显存频率为1730MHz,虽然比公版默认频率要高,但是仍然提供不错的超频余地。
产品介绍
Geforce 7800GTX 512m核心和之前Geforce 7800GTX的核心完全相同,但核心频率则被大幅提高,由430MHz提升到550MHz,而理论最高像素填充率高达空前的13.2G/s。而送测的XFX讯景Geforce 7800GTX 512m的核心频率更加高达惊人的580MHz。
测试平台
作为测试最强游戏单卡Geforce 7800GTX 512m的平台,我们采用了来自华硕的旗舰主板P5N32-SLI DELUXE,其基于nForce4 Intel Edition,并且是首款支持16X+16X的SLI运行模式的主板,而CPU也采用了intel目前最为强悍的Pentium4 3.73 Extreme Editon,内存采用来自Kingston高端产品HpyerX系列单条1Gb的DDRII,整套平台为目前最强悍的intel硬件平台。虽然如此,但是对于Geforce 7800GTX 512m这样的显卡来说,系统难免有瓶颈,我们只能尽量去减少瓶颈。
测试成绩
测试成绩
由于测试平台在测试的时候出现了问题,因而再次组建后剩下时间已经不多,但是从上面的几项测试中我们已经可以见到Geforce 7800GTX 512m强悍的性能。在任何的游戏中,即便是1600x1200的分辨率都已经难以撼动Geforce 7800GTX 512m流畅的运行速度。Geforce 7800GTX 512m的出现,无疑是将性能之王的宝座再次纳入掌中,并且向尚未现世的R580发出挑战书——R520的王者时代已经成为过去了。
总结
在NV40之后,G70的出现令到我们惊喜nVIDIA的进步,因为正如nVIDIA官方公布的数据一般,Geforce 7800GTX的性能表现几乎等于两张6800 Ultra SLi的性能表现,而Geforce 7800GTX 512m的出现,无疑是在G70这样一个成熟而高效的架构上赋予其更加强大的处理能力。看看由Geforce 6800Ultra到Geforce 7800GTX再到Geforce 7800GTX 512m的进化,和ATi当年在9700-9800-X800-X850的进化过程一样,在同一个具有相当前瞻性的架构上进行不断的深化和升级补完,保持一个DirectX大版本号采用一个统一架构的布署方式以适应应用程序的发展以及舒缓高昂的开发费用。
此外G70采用成熟的TSMC 0.11微米工艺制程,发布之时就能在市场上看到各大显卡厂商推出的产品,虽然每个厂商都只有那么几片,但是毕竟市场上能够买到。此外国外的著名整机销售商Alienware、VoodooPC、HP等都已经将其安装到自有品牌的顶级机型,在Newegg等购物网的预定情况十分踊跃,反观ATi目前高端显卡的市场状况并不理想,本来预料中将会以压倒性优势击倒G70的R520发布后,性能表现并不理想。更为雪上加霜的是,本来已经备受0.09微米工艺良品率偏低而影响产能的R520,高达625MHz的核心频率更加令到其在市场上久久不见踪影,始终应验了“高端产品并不是新制程的试金石”这句话。
总结
此外,24Pixel Pipeline运行在550MHz上的G70,表现出的性能要比16Pixel Pipeline/625MHz的X1800XT强悍,从中可以推断出两者的效能差距其实不大,Ultra-Threaded Shader Architecure为R520带来的效能提升明显地是相对X800/X850系列而言的。同时我们知道,在对Shader Model 3.0的支持上,R520并不支持Vertex Texture Fetch(纹理拾取功能)——Vertex Shader 3.0必须要有的功能。ATi采用Render to Vertex Buffer去实现相类似的功能,有传言R520在开发的过程中出现了设计上的失误,如果要支持Vertex Texture Fetch,那么效能将会有一定幅度的减退。另外我们可以知道,nVIDIA在G70的设计上,着重对未来游戏中常用的次表面散射、高动态范围光照、法线贴图压缩等前沿技术增加到核心的硬件支持上,在往后的游戏中,G70或许将会有更好的性能表现。
面对Geforce 7800GTX 512m咄咄逼人的气势,ATi究竟如何应付呢?有传言R580将直接采用32条Shader管线并统一PixelShader以及VertexShader单元,相信性能将会比Geforce 7800GTX 512m更为优胜。我们希望R580的发布能够帮助ATi重回性能王者的宝座,毕竟竞争是推动科技进步的最大力量。
网友评论