今天,2008年6月16日,随着NDA的解密,我们迎来了GPU巨头NVIDIA的第二代统一渲染架构GPU产品GTX280的问世,从NVIDIA第一代统一渲染架构G80问世开始,人们就在惊喜、猜测与等待中度过了近两年的时光。在过去的半年中,随着G80架构及其改良型产品G92核心的问世与普及,传说中代
导言及产品综述
今天,2008年6月16日,随着NDA的解密,我们迎来了GPU巨头NVIDIA的第二代统一渲染架构GPU产品GTX280的问世,从NVIDIA第一代统一渲染架构G80问世开始,人们就在惊喜、猜测与等待中度过了近两年的时光。在过去的半年中,随着G80架构及其改良型产品G92核心的问世与普及,传说中代号为GT100、GT200,晶体管数量达到18亿,拥有GPU自诞生以来核心面积最大的单芯片怪兽级产品的信息开始流传并引起了广泛的猜测。由于当前的半导体制造工艺存在可操作的极限,许多人对这种火星级产品能否诞生表示怀疑,也有人从GT100,GT200的名称中猜测其实际为单核心9亿晶体管,单卡双芯的产品。
然而,随着发布时间的临近,产品的规格信息被慢慢透漏出来,尽管最终的信息与最初的流传并不完全相同,然而这款产品也的确可以称得上是怪兽级产品。如今,NVIDIA方面已经全面完成了新架构的准备工作,新一代统一渲染架构呼之欲出,我们PChome Explorer Works评测室也在第一时间为您奉上GT200的架构解析,希望本文会对您充分的了解GT200及其衍生产品有所帮助。
统一渲染架构历史成长回顾
2006年底,随着NVIDIA的战略烟雾计划成功的骗过了最大的竞争对手ATI和几乎所有观众之后,在一片惊讶的目光中,第一代统一渲染架构经历了近3年的酝酿之后宣布诞生,G80架构一出世就展现出强大的威力,除了在性能方面几乎全面压倒了对手ATI的旗舰产品1950XT,也在视觉效果上让人们真正的体验到了Directx10的魅力
基于前瞻的设计思路,G80不但成为有史以来第一款基于Directx10统一渲染架构产品,同时也成为了有史以来最接近可编程化设计的GPGPU(General Purpose Graphic Processing Unit)通用处理的GPU处理核心,G80的诞生不但让NVIDIA成功的占据了GPU王座的位置,同时也将GPU处理能力用于通用处理的前景大大拓展开来,让GPU的强大浮点运算性能参与通用运算,将许多原本属于CPU的处理任务转移到GPU上来,成倍的提高处理效率与处理速度,G80第一次让人们看到了GPU日渐强大与多功能应用的曙光。
于此同时,从R300时代开始就一直为NVIDIA头号强敌的ATI却面临着复杂的困境,连续几代产品研发进程的一再拖沓,财政状况日渐恶化。同样是在2006年末,一个令人震惊的消息在业界诞生,CPU界巨头AMD以54亿美元的天价与ATI达成了收购协议。尽管这次大手笔的收购为ATI注入了期盼已久的资源,然而ATI方面的统一渲染架构代号:R600却受制于贪大求全的设计思路,一再遭受重大挫折,进而给其后续发布的市场表现带来了严重的影响。
GT200 第二代统一构架
诚然,GT200的核心构架其实仍然是建立在G80核心基础上的创新,而之所以将GT200称之第二代统一构架是原因是渲染二字已不复存在。G80的统一渲染构架,其实只是使用了全新的Shader模块来取代顶点管线和像素管线,后通过控制单元来统一协调分配,按游戏负载情况分配几何,像素等指令。
随着GPU的不断完善,让其本身除了具备对图形渲染外,开始越来越多的设计到非图形的计算领域,诸如媒体编码、数据分析等。在G80问世的两年中,虽然核心能很好的胜任这项“多余”的并行任务,但是NVIDIA发现G80的图形构架仍旧存在余热,只需在核心内部设计全新的控制模块,并且对微架构进行专门的优化,就能将G80真正改造成为一颗既能执行图形渲染又能同时处理非图形领域的外的计算,从而达到并行除数据处理的架构。由于GT200核心是一款全新理念设计的产品,架构上也发生了改变,毕竟将14亿的庞大晶体管群设计在576mm2上需要非常合理的布局设计 。
经过改造后的核心GT200,通过核心构架图我们就可以一目了然,GT200总共拥有18个流处理器阵列,每个阵列内部拥有24个流处理器,其中每8个为一组构成SIMT,并且共享16k指令缓存,三组SIMT共享一级缓存。这样的标量流处理器设计适合执行高度并行化指令,无论对于传统的图形渲染,还是物理加速运算、大规模数据处理都游刃有余。因此,第二代统一渲染架构的主要含义,就是将图形处理架构和并行计算架构完美的结合起来,成为一颗真正意义上的通用处理器,超越图形处理器概念的处理器。
GPU地位正在逐步改变
在架构设计进展的背后,一个名为CUDA的浩大工程也在逐步展开,得益于GPU架构的进化,以往只存在于理论可能性讨论中的许多工作开始被付诸于实践。在G80问世后的两年内CUDA工程的进展可谓突飞猛进,GPU在过去的数十年中一直作为CPU的协处理器存在,专注于负责2D及3D工程中的部分工作,而如今,随着半导体工艺逐步逼近极限,CPU多核心化的进展也非常迅速,多线程应用成为软件开发的必经之路,GPU面临着一次难得的机遇。当前,在许多前沿领域,GPU的处理能力越来越为研究者所看重,在诸如医学分析,石油勘探甚至财务运算等方面,GPU处理能力的开发速度异常迅速。
尽管CPU也在大幅的进步,但是但论理论浮点性能和处理资源,CPU无法与GPU那样庞大规模的处理资源相提并论,因此在系统中,长期以来占据着核心地位的CPU正面临着GPU的严峻挑战。作为CPU厂商,AMD的应对方法是直接收购了另一家GPU厂商ATI,而INTEL方面则是准备开发基于X86架构的通用GPU架构。这一切或许已经说明,GPU与CPU间的关系并非是一定要在谁是中央处理核心的问题上一较高下,而是说明两者至少应当同等重要,GPU固然无法取代CPU,但CPU也无法取代GPU,除非CPU自身已经进化成为GPU。
衍生功能:物理加速与通用处理
作为先前物理加速界的两大厂商,Ageia与Havok相继为NVIDIA与INTEL收购,而就在数天前,AMD方面也宣布与Havok展开合作。而NVIDIA方面则将Ageia物理加速技术融入了CUDA中,成为未来全系列NVIDIA显卡都具备的特殊功能。
对于G80架构及其衍生架构G92,GT200来说,其每一个SP都是一个独立的ALU矢量运算器,而PhysX物理技术仅需要强大的浮点运算能力即可完成。 实际上之前Ageia的独立物理卡PPU亦可理解为通用浮点运算器+物理加速应用程序接口(API),而第一代独立PPU拥有25GFlops浮点运算能力。 而GTX280/260的浮点运算能力已达到720GFlops/576GFlops,但目前的3D API决定Shader在同一周期内只能够处理1个除法运算或2个加法运算,同时Mini ALU可以充当SFU的角色,作3D+1D或2D+2D的运算。
换句话说,只要加载独立的PhysX API,现在的8/9系列显卡架构体系亦可实现PhysX运算——至少在增强了内部通用寄存器与数据流控制器(DME)的9系列显卡上可得以实现(从局部来看,8/9系列GPU本身已接近于IBM Cell芯片架构的RISC通用处理器)。因为所有的联合渲染器本身是可编程的通用浮点运算器(支持CUDA)。而此API很可能以Driver或外挂Driver的方式发布。
GT200现身旗舰GTX280登场亮相
新一代统一渲染架构的GT200设计思路明显更加贴近NVIDIA的通用计算工程,GPU处理核心在G80基础上进行了细部的改动,重点改进线程处理性能和增加更多的并行处理资源,如此以来GPU内部从G80以来就被称为全能处理单元的SP(Stream Processing)单元,其数量本身就得到了翻倍的增长,由G80的128个增加到了GT200的240个,尽管频率未能有明显的提升,但理论浮点处理能力也暴增到了933GFLOPS,基本达到了1TFLOPS的水准。暴增的SP数量也为未来shader更加复杂以及占用内存更多的游戏应用打下了良好基础。同时为SP数量的大幅激增为基于CUDA的运算和GPU物理加速提供更强的计算能力的高性能应用也铺开了更宽的道路。
GT200的产品实物外观与前代产品并无太大差别,但是内部的变化却非常大。作为有史以来最大面积的GPU核心,GT200在PCB中所占的面积非常惊人,早在数月前,来自国外某论坛的一则设计图纸就已经令众多玩家为之惊讶,仅凭目视猜测就已经确定超越了500平方毫米的核心晶片无疑对得起“怪兽”这样的称号。
如今,NVIDIA方面已经为我们展示出了产品的全貌与具体的设计规格。从外观上来看,GTX200系列的PCB产固定和GeForce 8800GTX以及GeForce 9800GTX长度基本保持一直,为10.5英寸。但是,PCB的层数却超越了前作,增至14层。
可见,尽管G80发布时,其巨大的核心面积就已经为业界惊讶,然而GT200的出现才令“怪兽”的称谓真正做到了名副其实。GeForce GTX 280基于GT200核心,具备完整的240个Processor Cores,采用1GB/512bit的显存规格设计,核心/Shader/显存频率分别为602/1296/2214MHz,峰值显存带宽高达141.7GB/s。显卡使用64M/16bit的显存颗粒,因此,在显卡的背面上也有8颗显存。而从规格表中我们也可以了解到,同样基于GT200核心的GTX260,个方面规格相比GTX280要略微低一些。GTX260的内部结构与GTX280是一样的,只是GTX260被屏蔽了一部分,因此我们可以把它看作是GTX280的简化版本。
NVIDIA用SLI最大限度起到平台化
SLI从驱动技术上来讲并不是技术难题所在,SLI这个技术标志也已经在07年年末得到最完美的诠释和演绎,680I SLI的主板让SLI技术得到发挥,那么3路SLI的技术和780I主板的悄然推出,着实让SLI的技术变得疯狂和最大的宣传。3路SLI可以说是目前最为顶级的3D平台,可以让玩家得到最最震撼的视觉感受,还能享受到最强画质的游戏,超高平台规格让超级玩家挑战极限得到最高的快感,震撼的画质和疯狂3卡,让耗电量也飙升。^_^
看到让人心跳的3路SLI显卡与平台,很是让人激动 |
这时的把多卡互联技术应用到现在来说,性能的提高多少能提升%多少,成为评测编辑和工程师们讨论的话题。也就是说大家已经不再讨论是否能够实现SLI或是SLI如何实现,而谈论到性能提升多少,其他补丁或是驱动能带来多大游戏性能的帧数变化。已经从讨论本质到谈论实际的应用变化,不得不说NVIDIA对于SLI的推广从此刻起已经成功了。
Hybrid SLI(智能SLI) | 〇 HybridPower技术(混合动力技术) |
〇 GeForce Boost技术(GeForce加速技术) | |
于是SLI的后续相关产品已经变得尤其突出,因为技术上的尝试和成熟已经能让好的Idea变成现实。形容革命有点夸大其词,但给消费者带来全新的使用感受和带来的好处不言而喻。
基于G200核心的GeForce GTX280与GeForce GTX260显卡均支持3Way-SLI,高清播放能力方面依然由PureVideo HD二代挺着,均与G92无任何差异。
总结
基于GT200核心的GeForce GTX280的定为是为了接替GeForce 9800GX2,成为NVIDIA桌面及产品中的旗舰,由于实卡还未达到本站,因此我们对GT200只能简单的做个前瞻,而通过了解了GT200的种种规格与特性后,旗舰产品GeForce GTX280是否将会荣登单核的霸主之位呢,我们还不能知道。不过笔者始终不是一个完美主义者,相信万物皆存在利与弊,例如庞大的晶体管是否能承载住新核心的工艺制程以及导致成本过高等问题,不过相信对于GT200,CUDA技术、PhysX引擎的加入对GPU来说都不为是个不错的技术提升。究竟性能如何,请留意我们Explorer Works评测室对GT200的后续测评。
网友评论