耗时21个月 NVIDIA搞出图形原子弹
根据历史记录来看,世界图形技术领航者NVIDIA每发布一款芯片级新品大约相隔三个季度左右,曾经耗时最长的G80——G92芯片花了12个月。然而这个记录将在今天终结,全新架构图形处理器GF100终于在酝酿了21个月之后横空出世,这款让NVIDIA粉丝们苦等近两年显卡今天终于要揭开它的神秘面纱,并将人们划入3D渲染的新世纪。
就在去年9月,NVIDIA的竞争对手ATi发布了第一款支持微软DirectX11的图形芯片RV870,随即相对应的HD5000系列各级显卡陆续面世,抢先建立起新阵营展开猛烈攻势。DirectX11 API中的精髓Tessellation(曲面细分)能使图形呈现更为逼真的几何效果,堪称图形渲染历史的里程碑之一,早已广泛引起游戏开发商重视也势必会受到玩家的青睐。面对挑战和机遇,NVIDIA稳住阵脚厚积薄发,让基于GF100芯片的DX11显卡Geforce GTX480在最需要它的时刻诞生。
NVIDIA在GF100芯片上作出架构级的更新扩展,它的核心计算规模达到上代GT200芯片的双倍,采用高速的GDDR5显存,除了大幅度增强原有功能之外,诸多新技术、新功能的加入使GTX480显卡在一些应用领域具备出奇制胜的潜力。尤其是在DX11曲面细分的操作上,GTX480运用的独特资源调度机构令其达到完美优化,于是一出即带来井喷式的DX11性能增长。在下面的内容中,我们将通过Demo演示为读者全方位解析GTX480的架构特性和技术要点、介绍并检测硬件设计的可靠性,最后让精彩的游戏测试对其性能做出公正的裁决。
物是“芯”非 新显卡个头不大性能火爆
NVIDIA旗舰显卡的外观设计一向走素颜实用路线,通常不会出现矫情的装饰,相较而言这次GTX480显卡可叫人眼前一亮。它的造型基本上沿用上代旗舰显卡GTX285的风格,只是镶嵌入外壳的散热板和外露的热管增添了几分机械质感,当然此设计是以改善散热散热性能为出发点,并非只为美观考虑。
与GTX480同期发布的还有次级的准旗舰型号GTX470,它同样采用GF100图形芯片,只是核心计算规格略有缩减,价格也控制的十分到位。
● GTX480/470及相同定位产品规格对比
在体型方面,GTX480的显卡长度以及散热器厚度与上代高端系列GTX285、275、260等保持一致,维持了原有的机箱兼容性。这里值得一提的是,GTX470不同于以往的准旗舰显卡,它的长度控制十分出色,比GTX480短2cm左右,相当于中端显卡的程度,据此可猜测未来同系列更低级别显卡的长度不会超过它,整个家族的物理兼容性都将提升一个级别。
GF100架构规格与工作流程简述
● GF100架构规格与工作流程简述
GF100图形处理器基于大量可扩展的图形处理集群(GPC)、流式多处理器(SM)以及存储器控制器。GF100拥有4个GPC、16个SM群组以及6个存储器控制器。我们希望能够推出在GPC、SM以及存储器控制器等方面具有不同配置的GF100产品,以满足不同价位的市场需求。
因为每个SM群组内含32个流处理器,因此从NVIDIA的原设计来看,完整的原生GF100芯片应该拥有32×16=512个流处理器,而首发的旗舰型号GTX480或许出于功耗和发热的考虑而将其中一组SM关闭,即为480个流处理器。据此也可以猜测GTX480并不是GF100家族的终极型号,火力全开的GF100显卡很可能会在不久工艺制程进一步更新后问世。
GF100拥有48个ROP单元,它们可用于像素混合(Pixel Blending)、抗锯齿以及原子存储器操作。ROP单元每8个一组,共有6组。每一组均由一个64位存储器控制器来进行控制。存储器控制器、2级高速缓存、以及ROP群组全都密切关联,扩展一个单元就会自动地扩展其它部件。
GPU能够通过主接口来读取CPU指令。GigaThread引擎能够从系统内存中获取指定的数据并将其拷贝到显存中。GF100采用了6个64bit GDDR5显存控制器(共384bit),便于显存高带宽存取。GigaThread 引擎会为各个SM群组创建和分派线程块。单个SM反过来会将多个Warp调度至多个CUDA核心以及其它执行单元。当图形流水线中出现工作膨胀现象时,例如在Tessellation(曲面细分)以及光栅化阶段之后,GigaThread引擎还能够将工作重新分配至SM。
● GPU中的GPU 图形处理集群自给自足
GF100的图形架构由大量叫做“图形处理集群”(GPC)的硬件模块构成。一个GPC包含一个Raster引擎以及最多四个SM。
GPC是GF100的主要高级硬件模块。它拥有两项重要的创新:一个用于三角形设置、光栅化以及Z坐标压缩(Z-cull)的可扩展Raster引擎,一个用于顶点属性提取与Tessellation(曲面细分)的可扩展PolyMorph引擎。Raster引擎驻留在GPC当中,而PolyMorph引擎则驻留在SM中。
如其名称所示,GPC囊括了所有主要的图形处理单元。它代表了顶点、几何、光栅、纹理以及像素处理资源的均衡集合。除了ROP功能以外,GPC可以被看作是一个自给自足的GPU,而一颗GF100拥有四个GPC!
摧毁DX11性能壁垒 放飞曲面细分
● 高效曲面细分 巧妙设计避免资源浪费
虽然可编程着色让PC游戏能够在每像素特效上与电影相媲美,但是在几何学逼真度上PC游戏还差得很远。当今最先进的PC游戏在每一帧中运用一两百万个多边形。相比之下,计算机生成的电影中每一帧通常会运用数以亿计的多边形。这种巨大的差异在一定程度上可以归咎于硬件,虽然像素着色器的数量已经从一个发展到数以百计,但对于要达如电影般精细的即时渲染仍然显得苍白无力。
在解决几何学逼真度这一问题上,NVIDIA把目光投在了电影上以期获得启发。电影中人物的精细画质归功于两种关键技术:Tessellation(曲面细分)以及Displacement Mapping(贴图置换)。Tessellation能够将大型三角形细化为诸多较小三角形的集合体,而Displacement Mapping则能够改变它们的相对位置。这两种技术相结合,让多变的复杂模型能够通过相对简单的描绘来形成,减轻负担,提高速度。
GF100整个图形流水线旨在为Tessellation与几何学吞吐量提供足够的性能。凭借一款利用多个“PolyMorph引擎”所实现的全新分布式几何学处构,GF100在图形处理流水线的前端取代了传统的几何学处理架构。每一个PolyMorph引擎均包含一个Tessellation单元、一个属性设置单元以及其它几何学处理单元。每一个SM群拥有自己专用的PolyMorph引擎。新生成的基元被四个并行工作的Raster引擎(上代GPU中只有一个Raster引擎)转化为像素。芯片整合的L1以及L2高速缓存能够实现SM与Tessellation单元之间或不同SM之间基元属性的高带宽传输。
为了便于实现较高的三角形速率,NVIDIA设计了一种叫做“PolyMorph”的可扩展几何引擎。每个PolyMorph引擎均拥有自己专用的顶点获取单元以及Tessellator。为与之搭配,NVIDIA还为每个GPC集群设计了一个Raster引擎,它们并行工作,在每个时钟周期内可设置最多四个三角形。这种工作模式能够在三角形获取、Tessellation、以及光栅化等方面实现巨大性能突破。
PolyMorph引擎拥有五个阶段:顶点获取、Tessellation、观察口转换、属性设置以及流式输出。每个阶段中所运算得出的结果均被发送至一个SM。该SM能够执行游戏的着色程序、将结果返回至PolyMorph引擎中的下一个阶段。在所有阶段都完毕之后,结果会被传递给Raster引擎。在PolyMorph引擎处理完基元之后,它们就会被发送至光栅(Raster)引擎。
Raster引擎由三个流水线阶段组成。在边缘设置阶段中,可提取顶点位置、计算三角形边缘方程。没有朝向屏幕方向的三角形都通过背面剔除而删掉了。每一个边缘设置单元在一个时钟周期中最多都能够处理一个点、线或三角形。
光栅器(Rasterizer)为每一个基元而运行边缘方程并计算像素的覆盖。如果开启了抗锯齿功能,那么就会为每一个多采样以及覆盖采样执行覆盖操作。每一个光栅器在每个时钟周期内均可输出8个像素,整个芯片每个时钟周期内总共可输出32个光栅化的像素。
光栅器所生成的像素将被发送至Z坐标压缩单元。Z坐标压缩单元获取像素图块并将图块中像素的深度与显存中的现有像素进行比较。完全处于显存像素后面的像素图块将从流水线中剔除,从而就不再需要进一步的像素着色工作,避免了计算资源的浪费。
PolyMorph引擎为三角形、Tessellation以及流出等方面实现了大幅性能提升。四个并行Raster引擎在三角形设置与光栅化方面能够提供持久的高吞吐量。通过为每一个SM配备一个专用的Tessellator、为每一个GPC配备一个Raster引擎,GF100所能够实现的几何性能可达GT200的8倍。
向多元化迈进 第三代流式处理器解析
● 功能元素更多 第三代流式处理器
第三代SM在架构上引入了多项革新,使其成为迄今为止可编程性最强,资源分配效率最高的SM。每个SM都有32个流处理器,达到了第一代统一渲染SM中处理器数量的四倍。GF100的流处理器转为在着色器的任何负荷下均实现高性能以及高效率而设计。通过采用1D标量通用计算架构,无论输入的指令长短如何,都能100%利用资源。
每个CUDA处理器都有一个完全流水线式的整数算术逻辑单元(ALU)以及浮点单元(FPU)。GF100采用全新的IEEE754-2008浮点标准,能够为单精度以及双精度算术提供融合的FMA(乘法加法)指令。FMA在处理紧密重叠的三角形时能最大限度地减少渲染错误。
全新设计的ALU支持所有指令全32bit精度,符合标准编码程序语言的要求。整数ALU还经过了优化,可有效支持64位以及更高精度的运算。它支持各种指令,其中包括Boolean、移位、移动、比较、转换、位字段提取,位反向插入以及种群统计。
每一个SM都拥有16个载入/储存单元,从而在每个时钟周期内均可为16个线程运算源地址与目标地址。支持的单元能够将每个地址的数据载入和储存到高速缓存或DRAM中。
● 双Warp调度器
SM可对32个为一组的并行线程(Warp)进行调度。每个SM拥有两个Warp调度器以及两个指令分派单元,这样,就能够同时发出和执行两个Warp。GF100的双Warp调度器可选出两个Warp,从每个Warp发出一条指令到16个核心、16个载入/存储单元或4个特殊功能单元。因为Warp是独立执行的,所以GF100的调度器无需检查指令流内部的依存关系。通过利用这种优秀的双指令执行模式,它能够实现接近硬件理论峰值的性能。
● 纹理单元
每个SM都拥有四个纹理单元。每个纹理单元在一个时钟周期内能够计算一个纹理地址并获取四个纹理采样。返回的结果可以是经过过滤的也可以是未过滤的。支持的模式包括双线性、三线性以及各向异性过滤模式。在以往的GT200架构中,最多三个SM共享一个纹理引擎,该引擎含有八个纹理过滤单元。在GF100 架构中,每个SM都拥有自己专用的纹理单元以及一个专用纹理高速缓存。
你见过可随意变大变小的高速缓存吗?
●随机应变的可编程式L1缓存
作为一种高速、可编程的片上存储器,共享存储器是第一代CUDA架构中的一项重要架构创新。通过促进线程间的通信,共享存储器让各种各样的应用程序均能够在GPU上高效地运行。从此共享存储器便被所有主要的GPU计算标准与同类架构所采用,例如Intel在酷睿处理上便开始使用共享式L2缓存。
由于意识到了共享存储器至关重要的作用以及保持数据本地性的重要性,NVIDIA再一次扩展了GPU缓冲存储器的规模。在GF100芯片内,每个SM群组均内置了一个自身专用的1级高速缓存。
每个SM均整合了64KB的L1缓存,这部分缓存的以容量配比划分可工作在两种状态。可配置为16KB的1级高速缓存外加48 KB共享存储器,或配置为16 KB共享存储器外加48 KB的1级高速缓存。
对于图形程序,GF100能够利用16 KB 1级高速缓存配置。1级高速缓存的作用是充当用于寄存器溢出的缓冲区,让寄存器的使用能够实现不俗的性能提升。针对计算程序,1级高速缓存以及共享存储器让同一个线程块中的线程能够互相协作,从而促进了芯片内数据广泛的重复利用并减少了芯片外的通信量。共享存储器是使许多高性能CUDA应用程序成为可能的重要促成因素。
● 高速L2缓存
GF100拥有一个768 KB的统一2级高速缓存,该缓存可以为所有载入、存储以及纹理请求提供服务。2级高速缓存可在整个GPU中提供高效、高速的数据共享。物理效果解算器、光线追踪以及稀疏数据结构等事先不知道数据地址的算法在硬件高速缓存上的运行优势尤为明显。后期处理过滤器需要多个SM才能读取相同的数据,该过滤器与存储器之间的距离更短,从而提升了带宽效率。
统一的高速缓存比单独的高速缓存效率更高。在不统一的高速缓存设计中,即使一个高速缓存被程序过多地预订,它也无法使用其它高速缓存中未贴图的部分。高速缓存的利用率将时钟低于理论峰值。GF100的统一2级高速缓存可在不同请求之间动态地平衡负载,从而充分地利用高速缓存。2级高速缓存取代了之前GPU中的2级纹理高速缓存、ROP高速缓存以及片上FIFO。
与只读的GT200 2级高速缓存相比,GF100的2级高速缓存既能读又能写,而且是完全一致的。这种算法包含了各种检查,可帮助确保所需的数据能够驻留在高速缓存当中。
让光线追踪进入实用 未来游戏大变
● 看似简单其实复杂 光线追踪在GF100上的应用
随着开发人员越来越多地将GPU应用于通用用途,在编程语言以及调试方面提供更好的支持就变得愈加重要。GF100是首款完全支持C++的GPU,C++是游戏开发人员所选用的一种编程语言。为了使向GPU编程的过渡过程变得轻而易举,NVIDIA还开发了Nexus,Nexus是一种面向GPU的微软Visual Studio编程环境。加上这些能够提供更好调试支持的全新硬件特性,开发人员将能够在GPU上轻松开展开发工作,正如他们在CPU上开发应用程序一样。
无论是光线追踪本身还是它与光栅化的结合都被许多人视作是图形处理器的未来发展趋势。随着GF100芯片的问世,交互式管线追踪首次在标准PC上成为了可能。过去在GPU难以高效运行的难题当中,光线追踪一直是很有代表性的一个。光线追踪反复循环地工作,而GPU很可能也在跟着反复工作。因为光线方向具有不可预测性,需要大量随机存储器的存取。
在以往的3D游戏中,你绝对看不到诸如此类的光线追踪效果,通常物体表面即使存在反光效果那也是用于欺骗你眼球的假象,因为那要么是一个固定的反射光晕,要么是几种实现设定好的物体反射在轮流切换。要真正做到根据周围环境,光照角度一丝不苟地模拟现实中可能出现的反射效果只会让GPU的负载大到崩溃。
而这次GF100的计算架构在设计时就已经将光线追踪的应用考虑在内了,它的L1/L2高速缓存能大幅度提升光线追中效率。其中L1缓存为临近的管线增强了存取器的本地性,而L2胡言村则增大了显存带宽。
从这图中这辆银白色的奥迪R8跑车上可以清晰地看到它对周围环境物体的反射,这是根据周围环境距离、角度、光源、以及汽车反射表面的弧度计算得来,符合现实中逻辑,可以让某些3D场景达到可以乱真的地步。
不过无论如何,光线追踪对于当今现有的任何一款GPU都是繁重的工作,为了维持游戏的流畅度,用户可以再应用程序中有选择地运行这个特效。
多屏立体幻镜让你坐在家中享受IMAX3D
● NVIDIA 3D立体幻镜让你在家中享用IMAX3D
NVIDIA早就推出了基于Geforce显卡和3D眼镜实现的3D Vision应用,它通过一个红外线发射器控制3D眼镜左右镜片的液晶开关频率,配合一台刷新率高达120Hz的专用LCD显示器,刚好能让左右眼睛各接收其中60Hz的图像信息。用这种被称作“时分法”的技术能够完美地契合3D视觉基本原理:“左眼只看左眼的,右眼只看右眼的”。
在GTX480显卡上,NVIDIA 3D Vision的应用通过多屏合并图像的办法已升级为3D Vision Surround。该技术通过在三台显示器形成的超宽超大分辨率上以全立体3D形式呈现出完全身临其境、可媲美IMAX3D的游戏、影视效果、把3D游戏体验推向新的高度。
例如上图中把三台23.5英寸16:9显示器横向拼接,可获得5670×1080的超宽分辨率,这绝不同于以往的屏幕复制、扩展,而是真正的将三台显示器合并成一台,显示一套完整的画面。
在用立体幻镜运行游戏中,同时开启Tessellation以及PhysX之后,对GPU的负载剧增。而GF100芯片全新的ROP子系统在每个分区中都拥有双倍数量的ROP单元,从而能够同时向多台显示器输出数据。尤其是在GPU中PolyMorph与Raster引擎对Tessellation的出色优化支持下,GF100芯片有望在繁重计算场景中仍能保持较为稳定的流畅度。
这其中值得NVIDIA夸耀的是,3D Vision Surround一出即支持边框校正功能,这对多屏合并的应用具有举足轻重的意义。用户能够通过控制部分调整屏幕左右显示的图像范围,以补偿显示器边框间隙造成错位感。在校正之后,可以创造出有一部分图像被边框遮挡的效果,好像边框就是游戏的一部分,玩家在通过一个环绕自身的多个窗口看外面的世界,如此可以给予人们更逼真的体验。
蛋白质折叠 CUDA架构不只玩游戏在行
● 蛋白质折叠 CUDA架构在非游戏领域成功应用
Foading@home是一个研究蛋白质折叠、误折、聚合及由此引起的相关疾病的分布式计算工程。由斯坦福大学化学系的Pande Group主持,于2000年10月1日正式启动。这个项目是GPU应用于非游戏领域一个最典型的理智,由NVIDIA CUDA架构运行这款软件的客户端结构表明,大规模并行模拟蛋白质折叠工作的速度比现在的GPU快百倍之上,而此项目总监Vijay Pande甚至表示,使用Geforce GPU对蛋白质模拟折叠的影响是极其深渊的,它可以让整个团队的工作效率极速飙升,极大缩短了对生物医学研究所需的时间。
● 次世代游戏开拓者:NVIDIA PhysX
PhysX原是一套由AGEIA设计的执行复杂物理运算的PPU,AGEIA曾声称PhysX能让设计师在开发游戏的时使用复杂的物理效果,而不需要像以往那样,耗费漫长的时间开发一套基于CPU运算的物理引擎,这同时还会让CPU性能不足的电脑无法流畅运行游戏。现在AGEIA公司已被NVIDIA收购,相关物理引擎技术已融入CUDA技术当中,由显示核心加速运算。因此只要采用CUDA架构的显卡理论上都支持PhysX物理加速,目前该技术已广泛应用到150个多个游戏当中,而全部软件的注册数量已超过一万名。
下面这个名为Raging Rapids Ride的Demo演示了PhysX最为基本的几种应用形式。一艘小船在崎岖的峡谷中穿行,途径无数坎坷,还需沿着路线不断穿过作为路标的小旗。在这个场景演示中,水流的细微变化和溅射会完全由船体的运动轨迹来决定,而不是重复事先设定好的几种程式。
当船穿破小旗时,旗帜会因船穿越的角度、力度、方向形成完全不同的破损效果,还会被船体扯碎,形成的碎片尺寸、形状与船体运动的逻辑吻合。显然这种没有任何确定性的效果无法由传统的贴图置换来完成,它必须基于PhysX庞大而复杂的逻辑运算来得出结果,GTX480那规模宏伟的CUDA内核可以轻松完成这个任务。
可以想象到,当这个演示Demo中看似简单的效果广泛应用在我们日常运行的PC游戏中时,我们将被置身于更接近真实的游戏体验中。
Demo演示 融合所有NVIDIA技术的游戏
● 终极PhysX应用典范:Supersonic Sled
在讲解这个下面这个Demo演示的含义之前,让我们先了解这款基于PhysX开发的物理演示软件Supersonic Sled。这款游戏的原型是上世纪五十年代美国空军所作的人体重力承载试验,目的是探究人体究竟能承受多快的加速度。在一辆轨道车上安装了火箭推进器,由人控制它沿平原向前飞驰,直到坠落峡谷....。
这个Demo中应用了多项NVIDIA看家技能,如PhysX、Tessellation甚至加入了环境光线追踪,可以说集GTX480优势于大成者的演示软件。与大多数枯燥的演示Demo不同Supersonic Sled还具有游戏互动性,玩家可以尝试以控制火箭车以最快的速度达到终点后成功制动,没有坠落山谷,程序会自动记录玩家到达重点所花的时间并作出排名。
Supersonic Sled有通俗易懂的中文控制界面,极易上手,除了演示NVIDIA各项技术特性之外,它的确是一款不错的休闲游戏。
火箭车在飞驰,速度不断增加,所到之处的气流和动能会造成建筑和场景的损坏,十分逼真。
随着速度的加快,火箭车驾驶员会露出恐惧的神情,脸上的五官也会因为强烈的气流而被吹变形。
沿途小木屋被火箭车经过带来的强大气流摧毁
连石拱山也会因火箭车的震动而崩塌,若没有及时穿越,就只能一飞上天了。
火箭车经过大桥时将其震碎是整个Demo中最为震撼的场景是,接下来让我们查看这些效果是如何实现的。
Demo演示 重力计算让PhysX无所不能
打开重力加速度显示,可以看到火箭车的并非是一个整体,它的几乎每一部分都有独立的物理计算系统,承受独立的重力加速度,单独受其影响。当火箭车向前行进时,显然这些独立物理模块的重力都是指向前方的,只要任何一个模块承受的重力超过了它的自身的设定值,就会受重力影响而改变形态或位置。所以在加速过程中,火箭车上时常会有一些小零件掉落,如果加速过于剧烈,则可能整个解体。
当路边木屋被吹散时,可以看到数不清的灰尘及碎片都有其独立的建模。
大桥框架的每一段钢筋都有独立的物理系统,与之前的道理相同,每一个系统都会因各自受到的力而发生改变。
当大桥崩塌时可以看到所有具备独立物理系统的钢筋碎片都会根据重力加速度的事实逻辑运动,图中的细小箭头就代表这些碎片所受到的力的方向,它们因各自所处的位置和受力的不同而指向四面八方。
无果没有支持PhysX的CUDA矩阵,很难想象如此惊人的物理计算谁能胜任。
demo演示 曲分和换图是DX11精髓
● 吃透DX11精髓 曲面细分功能庞大意义深远
如果认为DX11的Tessellation(曲面细分)功能只是用来加强物体的层次感,提高逼真度,那就大错特错了。通过Tessellation技术,游戏设计师可以轻松完成之前无法想象的繁重的绘制工作,配合NVIDIA GF100芯片架构对此所作的优化,在运行游戏时也可以毫不费力地渲染出那些复杂的模型。
我们知道大多数3D游戏中人物头发的效果都强差人意,通常也是视觉上最影响真实性的部位之一。然而事实上游戏设计师要做出更逼真更自然的头发从技术角度而言并不困难,难就难在这会花费大量的时间来绘制每一根头发,而更要命为每一根或每一缕头发所做的动态设定或者是物理设定可能会吃尽你的GPU资源——试想当画面中出现多名人物,而每个人的每一根头发都在做独立计算时是多么恐怖的工作量。
现在DX11的Tessellation技术将此复杂的工作变得简单。Demo演示中的这个女性人偶,它的头发丝丝分明显得很自然,似乎所有头发都会根据环境力的影响而做出不同的摆动,那么Demo设计者真的绘制了如此多的头发吗?
因为有了Tessellation的帮助,答案是否定的。当我们把Tessellation选项关闭后会发现放在眼前的几乎是一个秃子,设计者事实上只为她画了100多根头发,而其它所有头发都是由Tessellation技术生成。生成一根头发的三角形被细分成诸多小三角形,从而制造出茂密的头发。
由曲面细分生成的多根头发可被视作“幻象”,它们共用相同的物理设定,因此这个模型最多只需要为原始的这100多根头发设定运动轨迹。
虽然Tessellation可以简化绘制工作,也可以减轻物理计算的压力,但是毕竟三角形的增多也会加大GPU负荷,如果是在一个很大的场景中,那些不计其数的三角形会压垮现有的任何一款GPU。那么如何能即获得Tessellation的视觉特效又保持程序流畅运行呢?这就需要GF100芯片转为DX11设计的内核资源优化机制显身手了。
NVIDIA曲面细分与贴图置换优化全程详解
下面让即开始演示NVIDIA GF100芯片是如何优化Tessellation功能的。首先将人偶头顶的图像拉至最近,注意图片右下角Tessellation动态平衡中三角形细分量已自动达到最大,因为此时被曲面细分的图像离人眼很近,轻微的细分量下降都会让人觉察出差别,为了不降低视觉画质,GF100内核中Raster正在引导PolyMorph做最大范围的细分。
将距离放远一些,可以看到动态平衡中曲面细分量自动下降至50%,但是由于人眼视角变广,对头顶的分辨能力下降,感觉不出有什么异样的变化。
当我们进一步拉远距离,直到曲面细分已自动降低到关闭状态,这时的人眼的视角极宽,几乎分辨不出头顶的细节,所以依然能保持自然的视觉感受,不会觉得异常。最后我们将NVIDIA对Tessellation实施的动态平衡关闭,让它保持在这个画质设定下,拉近了观察此时的人偶是什么模样。
可以看得出来,人偶的头发数量已经降至Tessellation关闭时的原始设定状态,头发宽度自动被贴图置换放到最大,用于覆盖头皮表面。虽然在此近景观察粗糙不堪,可是当处于刚才的观察距离时,任何人也觉察不出,而且曲面细分已经完全关闭,腾出了GPU核心资源用于人眼可分辨的近处景物处理。
Heaven2.0逐级演示曲面细分优化过程
● Heaven2.0演示 Tessellation优化的标准教材
如果说刚才的头发人偶演示只是理论上的应用,那么Unigine Heaven2.0丰富的场景环境便是检验显卡DX11性能的绝佳工具,尤其是针对其精华Tessellation部分。
下面的两图分别为Tessellation关和开时的几何状态,可以看到后者拥有及其密集的三角形数量,由它们扩展出的层次感极大地丰满了图形细节,更具立体感。
不过得到总需要付出,Tessellation打开时的渲染帧率也会有明显下降。当视野中物体数量有限时做曲面细分GPU还能支撑住,若是放眼四周,花园别墅尽收眼底时那岂不是要接近死机状态?
● GF100的Tessellation优化基于人体功能学
以上两张图均开启了最大数量的Tessellation,NVIDIA GF100内核的优化能有效地将远景的三角形细分数量下降,此时完成这栋房屋的渲染所占用的GPU资源要比刚才少的多。因为远处景物的细节通常难以引起人眼的注意,所以GPU的Tessellation资源需集中在较近的物体上,这样GPU能够最大限度地减少Tessellation造成帧率下降的幅度,同时又满足了人们的视觉需求。
最后一张远景图能最清晰地说明问题。从这个角度由近至远后退,会看到三角形细分的数量由最远处开始减少。如图中所示距离最远的区域,最先处于无Tessellation的状态,同时GPU对这部分图形渲染的工作量也降至最低。在这样的距离下,此处的图形细节人眼已分辨不出,优化节省出的资源可以用在别处。
NVIDIA GF100芯片对Tessellation的优化设计实际上是利用了人眼对远近物体的分辨力不同,更准确地来说是屏幕上远近物体分辨率之间的差距。理由很简单,若分辨率过低,为它渲染再多的纹理细节也无法体现,所以只要把细节降低至与分辨率体现瓶颈相持平的程度便可以形成优化。
热点回归 GTX480/470显卡外观鉴赏
● 热点回归 GTX480/470显卡外观鉴赏
在Geforce GTX480显卡实物曝光之前,人们猜测它的长度和体积会超过NVIDIA之前旗舰产品一直沿用的26.5cm,可能与双芯的ATi HD5970不相上下,结果揭晓后让翘首以盼的玩家们长吁了一口气,这样它便能像以往的GTX260、9800GTX那样能对大部分机箱兼容。
要说形状,GTX480/470与上代高端公版显卡相比基本无变化,只是这次GTX480对散热方案略有更新,不再让整流塑料外壳完全罩住散热器鳍片,而是在将散热器的顶部嵌入到整流外壳中,使散热器的顶部直接暴露在外。为了增加表面积,提高辅助散热效果,这部分金属面被加工出许多凸脊。
GTX470乍一看像是早期公版的GTS250,PCB长度也与公版GTS250相仿。
这里可以看出NVIDIA为GTX480的散热系统花了不少心思,散热器本体配备了5根6mm粗的纯铜镀镍热管。热管从导热底座伸出后经由显卡脊背插入鳍片中,划出“U”字形,这是NVIDIA历代公版显卡中未曾出现过的式样。
公版GTX480/470的视讯输出端口配置相同,使用双DVI+MiniHDMI的组合。
GTX480外部细节私密照
公版旗舰显卡的做工用料必须严格遵照芯片研发商的设定,而这款千呼万唤始出来的GTX480显卡也势必要精雕细作。这款显卡的每一处都用料都光洁工整,没有一丝毛刺。塑料、板材均给人以高品质的扎实感。
从显卡背脊后方的桥接端口规格可以看出,GTX480/470都支持3way SLi功能,那么依照惯例,在双GF100核心的终极显卡出现之前,用3片GTX480组成的多卡互联会是这个系列中的最强性能解决方案。同时据官方透露的效率,GF100比以往更灵活的核心资源分配调度机制出人意料地对SLi效率产生了优化,每增加一片相同的显卡后性能提升的幅度比例有可观的提升。
很这么一部分用户购买高端公版显卡不主要是为了获得强悍的3D性能,很多高清视频爱好者衷情于它们设计最严谨,用料最严格的视讯低通滤波电路。因为这类旗舰产品在设计时相对而言不会太过于重视控制成本,那么便遵循一个简单的道理:“99步都走了,不差那一步”。
GTX480的散热器整流外壳不同于以往,它与显卡的衔接处全部采用插笋固定,无需工具用户徒手就能轻易将其拆下,随即整个散热器本体和离心式风扇就会一览无余,这样极大地方便了日后除尘工作。对任何硬件的散热系统来说灰尘都不是好东西,且对于公版抽气式散热器的负面影响尤为明显。抽气式散热器利用整流罩引导离心扇产生的气流穿越鳍片间狭窄的缝隙,除此之外这些空气再无去处。当鳍片缝隙被灰尘堵塞时,不但会导致散热性能下降,增大的风压掠过鳍片还可能会提高散热器原有噪音的频率,令人感到明显不适。
大卸八块 窥探GTX480散热构造
● 大卸八块 详窥GTX480散热构造
◎离心扇不连整流罩,除尘便捷
GTX480的整理外壳只通过卡扣插笋固定,故无需工具很容易便被拆下。我们立刻可以看到散热器与整流外壳之间的镶嵌式关系。不同于以往的是,离心式风扇这次被固定在散热金属底板上,而非与整流外壳连接。
由于以往离心式风扇在整流外壳上时受到风扇护框的包裹,扇叶深处沉积的灰尘不易清理,而固定风扇的细小螺丝耐久度欠佳,多次拆卸可能出现“腻扣”的现象,但现在GTX480杜绝了这些问题。
风扇顺时针旋转,搭配扇叶倾斜角度,能有力地将气流灌入密集的散热鳍片中,带走由热管传递来的GPU热量。
◎镀镍+直贴,公版散热器媲美品牌高端
热管与鳍片交接处的圆形小豁口预示着它们之间采用焊接工艺连接。与主流热管散热器所采用的穿Fin工艺相比,这种结合方式加工效率较低,成本偏高,但是各方面的可靠性绝佳,因此诸多发烧级散热器品牌的产品仍坚持采用焊接加工。从这方面也可反映出无论是PCB本身的做工用料还是散热器设备甚至是外壳,NVIDIA对公版都有极其严格的要求,这是多年来公版显卡最受硬件玩家青睐的主要原因。
旗舰显卡的发热量不可小视,GTX480显卡配备的散热器拥有5根纯铜热管穿越密集铝制鳍片,整体经过镀黑镍加工,可有效阻抗氧化对散热效果的侵蚀,几乎能永远保持光洁如新。此外,NVIDIA还将当下十分流行的“热管直贴”设计引入到公版散热器上来,这样无需通过导热底座做中介,压扁并经过打磨的纯铜热管与芯片直接接触,理论上传热效率可获得显著提升。无论从哪方面看,GTX480的公版散热器都能媲美散热器品牌的高端产品,也刚好与它的产品定位吻合。
真相大白 整体嵌入式设计精巧易用
◎ 嵌入式散热底板精巧到位
旗舰显卡上除了主芯片之外往往还有为其供能的电源系统和高速显存需要额外的主动散热,这方面以往的做法是为散热器设计一个面积大到能覆盖整个PCB的导热铝板,这样当散热器导热铜底与主芯片接触时,周边的铝板便能借助“口香糖硅脂”接触到供电模块、显存这类次级高热元件。这样做的坏处是只要为GPU的散热鳍片除尘,就不得不将散热器连同底板一起拿下,因为它们是连体的。
在GTX480显卡上,散热底板与GPU散热器是分离的,为相互独立的两个个体,除尘时只需拧下用于固定GPU散热器的四颗螺丝,即可卸掉GPU散热器。而散热底板或许直到这片显卡终其一生时都不用动它,反面与内存芯片想贴合吸收热量,再从正面依靠离心风扇产生的气流带走。
揭去最后面纱 PCB电路设计解析
● 揭去最后面纱 PCB电路设计布局全解
不出所料,金属散热底板的作用就是收集显存、供电模块的发热,在背面可以看见它专为那些位置量身定做的接触点。
在PCB上做扇形风扇入气孔一直是NVIDIA的独门特色,这样可以将离心扇背面的进气通道打开,使散热系统能得到更多的空气供应,但同时确实增加了PCB布线难度,许多线路需绕行那些空洞。从笔者开始接触显卡至今,首次看到这种设计是在双核的GTX295显卡上。
GTX480显卡所用的GF100-375-A3 GPU核心,使用40nm工艺制造,尽管如此,因晶体管数目较GT200翻了一倍有余,Die的面积似乎又增加了一些。
GTX480搭载的三星GDDR5 0.4ns显存,共有12粒芯片,每粒连接位宽为32bit,容量128MB,总共形成384bit/1536MB的规格。这些显存的理论速度应该达到5000MHz,属于现有最高规格的GDDR5型号。NVIDIA官方对显存采取降频设定是综合多方面因素考虑,其中可能有“显存总带宽已极大满足”、“1.5GB容量实现高频的良率”、“采取低电压减缓发热压力”等多方面因素。
GTX480拥有规模空前的GPU核心供电阵容,为确保在任何负载下电源模块容量都有冗余,NVIDIA为其规划了6相位脉宽调制供电系统,并且每相位配备三颗功率IC,有惊人的电流承载能力,为芯片长期稳定工作打下坚实基础。
显存方面与大多数主板的内存供电一样,采用双相位脉宽调制系统,每相位搭配2颗功率IC。显存的工作电流要比GPU核心小的多,无需庞大体系即可确保电能供应。
NVIDIA公版显卡在某些用料级别上符合美国军规要求,例如核心供电部分末端利用陶瓷电容和高频滤波性能出色的钽电容组合对电流进行最后的宽幅域噪声过滤,尽可能确保GPU供电精确、稳定。陶瓷电容和钽电容的耐温特性十分出色,陶瓷电容通常达到125℃仍能保持有效,而钽聚合物电容即便是135℃的高温也对它无可奈何,这是普通铝壳电容无法比拟的,在旗舰显卡电流极高的电源输出末端部分也唯有它们能让人高枕无忧。
当然,究竟公版GTX480/470的品质如何,光说不练不行。为此我们马上将对这些显卡投入到恒温恒湿箱中开始残酷的重负载耐久测试,精彩内容不容错过!
烧烤72小时 50℃恒温负载检验品质
马不停蹄,我们来到国内著名散热器厂商九州风神驻北京的评测室,这个地方有很多专业的硬件检测仪器,我们要借用这里几天的时间。进入评测室后迅速将测试平台搭建好,由于此时GTX480正在PCHOME评测室进行游戏性能的检测,我们抽取一片GTX470做高温环境中长时间负载的耐久度检测。
GTX470与480一样采用30亿晶体管的GF100核心,只是有一组SM被关闭,削减幅度不大。GTX470作为更贴近消费层次的产品并不具备后者那样精心设计的散热措施,它只使用了一个很普通的NVIDIA公版显卡散热器,能否经受住接下来人为的摧残考验,我们都为它捏了把汗。
根据电脑硬件厂商对产品可靠性最严格的要求,需要在50℃的环境温度下持续高负载运行三昼夜,期间不能出现任何故障。事实上50℃是比较苛求的测试标准,大多数民用级电脑硬件只需通过45℃或40℃便算合格,因为通常机箱内的环境温度最高也不过如此。不过既然本次测试的是NVIDIA公版旗舰显卡,秉持让所有人信服的态度,我们决定采用50℃环境做3×24小时的负载测试。
测试平台搭建好并已放入恒温箱中,开机启动。
九州风神评测室用于工业级测试的恒温恒湿箱设计十分严谨,电源线材都从箱体侧面的圆孔通向外部,并且测试时必须用隔温海绵将这它塞住。
关上箱门后,将温度设定至我们需要的数值:50℃,而恒温箱LCD显示当前箱内温度只有16℃,启动恒温开关后,恒温箱开始为箱内环境升温。这时我们的测试平台已经开始运行3DMARK06,勾选所有测试场景做无限循环,其中当然也包括负载极高的“Pixel Shader”测试部分,刚好能模拟显卡在实际运行游戏中时不时出现的峰值工作状态。
十分钟后,温度升高至50℃,进入恒温状态。笔者返回PCHOME,留它独自在这里运行,三天后见分晓!
我已出仓感觉良好 请消费者们放心
三天后的同一时间,笔者返回九州风神评测室,看到GTX470依然在孜孜不倦地运行3DMARK06,平台既没有死机也没有过热重启,更没有花屏,一切安然无恙。
通过恒温箱盖上的透视窗,看到测试平台也没有任何异样,一直在正常运转。
测试停止后,查看GPU-Z和HWMonitor记录下的GPU温度变化,数据显示在测试过程中,GTX470核心的最高温度达到91℃,风扇转速最快时提速到1900rpm。不必为如此高的GPU温度感到惊诧,其实即使在室温下,有时候高端显卡也能到达这个程度,更何况是50℃环境,况且它还未越过NVIDIA官方定义的安全上线。
从三天前测试开始到现在测试停止,GTX470在50℃环境下高负荷工作了72.5小时,顺利通过了测试。可见之前人们对GF100芯片热功耗过大的猜测和担忧纯属多余,严格的检测已证明它可以健康地生存在任何人类居住的环境中。
备战性能测试 软硬件平台综述
● 测试平台硬件设定综述
对GF100芯片及GTX480/470的解析现在进入性能实测阶段,相信一直追逐硬件最前沿的玩家们早已迫不及待想要了解NVIDIA新卡皇的游戏性能。那么在揭晓测试结果之前,为了便于用户更好地理解测试结果,需先阐述本次测试所用到得硬件配置以及参数设定。
好马得配好鞍,用Intel近期发布的6核12线程至尊U王Core i7 980X测试GTX480当然是最理想的选择,遗憾的是这款CPU目前十分稀缺,送测产品被早早收回。那么退而求其次,使用最具性价比的Core i7 920超频到4GHz测试能获得相同的功效。与GTX480/470对口的用户群基本上都是硬件发烧友或是游戏玩家,他们中相当多一部分人都在将CPU超频使用,而且CPU超频后平台性能瓶颈将被降低甚至消除,能更充分地体现高端显卡真实的3D性能,凸显各个参测产品之间的性能差别。
除了GTX480/470之外,另外两款参与本次测试对比的分别是NVIDIA上届单芯之王GTX285,以及ATi目前的单芯旗舰产品HD5870。虽然诞生的时间不同,但它们都是当前单芯显卡中所能找到的最顶级产品,可直接对比参考。
● 测试平台软硬件构成总表
本次性能测试的范围十分宽广,包括大型3D游戏和基准测试在内共有22个测试项目来为GTX480/470打分。其中包括3个基准测试软件、4款DX11游戏、2款DX10.1游戏、7款DX10游戏、3款DX9游戏以及3款基于NVIDIA物理加速功能开发的PhysX游戏。相信通过如此全方位的检测能帮助我们对NVIDIA Geforce 480/470的性能得出最准确而公正的结论。
DX9基准测试:3DMARK06
● 基于DX9的基准测试:3DMARK06
3DMARK06从发布到今天已超过4年光景,与日新月异的计算机芯片技术不同,3DMARK在推出后很久的一段时间里都可用于对显卡的3D性能做出准确判断,只要是这款3DMARK所基于的图形引擎技术仍在被使用,测试就不会失去意义。如3DMARK06的DX9引擎至今仍被大量新游戏使用。
测试参数设定:
NVIDIA驱动中强制关闭AA/AF;ATi驱动中没有强制关闭选项,为应用程序设定,但3DMARK06的标准测试中默认为关闭。分辨采用程序默认的1280×1024和符合测试所用显示器尺寸的1920×1080。
依测试结果所见,四款显卡的得分由上至下依次递减,两种分辨率之间的得分变化幅度不大。这是因为用现在的高端显卡渲染数年前推出的基准测试场景存在相当大的性能冗余,测试平台向显卡输送的数据量根本无法填充剩余的性能资源。
3DMARK06的测试里GTX480小胜HD5870,而GTX470紧随其后,与HD5870的得分十分接近。
DX10基准测试:3DMARK Vantage
● 基于DX10的基准测试:3DMARK Vantage
3DMARK Vantage是专为Windows Vista DX10环境下开发的3D性能测试软件,分为高、中、低三种测试级别,对显卡的计算能力要求和显卡性能在得分中所占的比重也依次递减,通常以中档Performance设定为通用衡量标准。
测试参数设定:
3DMARK Vantage有一项PhysX测试基于NVIDIA物理加速技术设计,在NVIDIA驱动中开启或关闭这项技术会显著影响使用CUDA内核设计的NVIDIA显卡测试结果。因为ATi宣称的物理加速基于另一种称为HAVOK的技术,与3DMARK Vanage不兼容,所以本项测试中所有NVIDIA显卡将提供开关PhysX后的两种结果参与对比。
测试运行3DMARK Vantge中Performance和Hi两种不同级别的画质设定。
毫无疑问,当开启PhysX时,Geforce GTX480的3DMARK Vantage总分全面压倒HD5870。不过关闭PhysX后,在Performance级别的测试中HD5870出现小幅反超,但在High级别更高画质设定下,NVIDIA继续保持领先。
3DMARK Vantage的总分由GPU和CPU得分构成,在相同测试平台下,GPU得分完全由显卡3D渲染能力决定,不会受有无PhysX影响。把GPU得分单独提取出对比,格局与总分对比相同,HD5870在低画质下有些优势,但高画质依然无法撼动GTX480。
H级画质下3DMARK Vantage会开启AA,P级则是关闭,而GF100中拥有提高了抗锯齿能力的新型ROP单元,数量也提高到48个,这与抗锯齿性能密切相关,因此在加入AA的设定下GTX480能更出色地维持游戏速度。观察测试结果可以看出,从P级到H级,HD5870下降了5976分,但GTX480只下降了4849分。
DX11基准测试:Unigine Heaven2.0
● 基于DX11的基准测试:Unigine Heaven2.0
俄罗斯Unigine公司开发的新款3D性能测试软件,主要针对DirectX11 API设计,同时还兼带DirectX9、DirectX10以及OpenGL3.2.这款测试软件的引擎,在DirectX11模式下可以选择开启或关闭Tessellation(细分曲面技术),这时DX11的重要标志性技术之一,也是DX11相对于以往API的明显提升部分,可使渲染对象拆分得更精细,模型边缘层次感明显,视觉上更加真实。仿佛为了庆祝GF100芯片诞生,就在昨天Unigine Heaven官网上又推出了2.0版本,加入了许多新的场景。
测试参数设定:
Unigine Heaven2.0的测试运行DX11和DX10两种模式,因为现在和未来一两年内,大型3D游戏将主要基于这两种API设计。测试使用1920×1080分辨率,开启AA/AF,其中DX11模式下的Tessellation(曲面细分)级别设定为Extreme。
GF100核心为Tessellation巧妙的优化使GTX480在DX11模式下摧枯拉朽式地击败竞争对手,就连低一级别的GTX470竟也翻身骑在HD5870头上。当API切换到DX10模式后,得分格局又归于“正常”,HD5870显然非等闲之辈,GTX480仍更胜一筹。
DX11游戏:《科林麦克雷:尘埃2》测试
● 关于接下来所有游戏测试的分辨率说明:
由于评测时只有一台23.5吋/16:9显示器可用,我们只选择在此显示器支持的最佳分辨率1920×1080状态下运行所有游戏测试。对于拥有GTX480/470这样性能的显卡而言,低分辨率下过低的GPU、显存负载和欠佳的游戏体验无太大参考意义。关于保有量巨大的22吋显示最佳分辨率1680×1050,这些显卡的性能可以根据现有测试结果估算,因为1920×1080的像素量(2073600pixels)高于1680×1050(1764000pixels),故使用后者运行游戏的帧率会略高一些。
● DX11游戏:《科林.麦克雷:尘埃2》测试
《科林.麦克雷:尘埃2》是一款为了纪念去世的英国赛车手科林.麦克雷制作的模拟赛车类游戏,在前作发行了两年之后,这款续作在2009年底正式发布。这款游戏最大的亮点是率先支持DX11引擎,无论是画面质感还是可玩性都大有超过《极品飞车》之势头。
测试参数设定:
两款GF100芯片显卡与HD5870运行在DX11最高画质设定下,GTX285运行在非DX11最高画质下,测试使用1920×1080分辨率,开启AA/AF。
同样是基于DX11的3D渲染,使刚才Unigine Heaven2.0测试的情景再现,GTX480与GTX470完胜对手,值得一提的是这款最早出现的DX11游戏还是由ATi参与研发的。GTX285因为运行在非DX11模式下,负载较轻,因此游戏帧率也比HD5870高,但不能以此判断它的性能超过HD5870。
DX11游戏:《普利皮亚季的召唤》测试
● DX11游戏 《潜行者:普利皮亚季的召唤》测试
《潜行者:普里皮亚季的召唤》(S.T.A.L.K.E.R.: Call of Pripyat)的故事剧情发生在《切尔诺贝利的阴影》的故事之后,Pripyat是乌克兰的一个城镇名字,是切尔诺贝利事件的隔离区,它是一座被废弃的城市,具体在乌克兰首都基辅以北的区域,民间有“鬼城”之称,现时Pripyat市已经成为了一个旅游景点。显然,新版S.T.A.L.K.E.R.游戏的舞台就在这里搭建。
测试参数设定:
使用游戏自带Benchmark程序,两款GF100芯片显卡与HD5870运行在DX11最高画质设定下,GTX285运行在DX10最高画质设定下,测试使用1920×1080分辨率,开启AA/AF。《潜行者:普利皮亚季的召唤》Benchmark测试分为白天、黑夜、雨天、光照各种场景,每个场景都会得出各自的测试结果,下面我们在同一个柱状图中对比这四个场景的测试结果。
Tessellation优化上的颓势使HD5870没有翻身机会,GTX480一路凯歌,GTX470除了白天场景的测试与HD5870持平之外,其余场景测试结果都令对手抓狂。在这个游戏中,背负DX11重载的两颗GF100芯片依然获得了比GTX285在DX10模式下更高的帧数,NVIDIA新芯片的能量得到淋漓尽致的体现。
DX11游戏:《战地:叛逆连队2》测试
● DX11游戏 《战地:叛逆连队2》测试
《战地:叛逆连队2》(Battlefield: Bad Company 2),是EA DICE开发的一款第一人称射击游戏。游戏开发商美国艺电确定2010年3月2日为游戏Xbox 360、PS3、PC版的首发日期。该游戏是EA DICE开发的第9款“战地”系列作品,也是《战地:叛逆连队》的直接续作,在继承前作特性的基础上,强化了多人联机载具对战和团队合作元素的设定。游戏使用加强版的寒霜引擎,加入了建筑物框架破坏和物体分块破坏的支持。
测试参数设定:
这款游戏没有自带Benchmark程序,选择第二关“Cold war”刚开始时长达两分钟的自动过场剧情,使用Fraps软件记录游戏帧率。两款GF100芯片显卡与HD5870运行在DX11最高画质设定下,GTX285运行在非DX11最高画质设定下,测试使用1920×1080分辨率,开启AA/AF。
对于这项测试NVIDIA GTX480/470似乎水土不服,而ATi也终于缓了一口气。这次GF100芯片在DX11渲染中的优势没有得到发挥,也可能跟Forceware 197.17beta版驱动还不够完善有关,或许在日后的正式版驱动中能得到改善
DX11游戏:《地铁2033》测试
● DX11游戏 《地铁2033》测试
《地铁2033》改编自俄国作家Dmitry Glukhovsky的畅销小说,由乌克兰4A游戏工作室开发,采用4A游戏引擎,而且PC版支持nvidia的PhysX物理特效。 2013年,由于大面积的核泄漏,导致几乎所有的人类都被消灭,而且地面已经被污染无法生存,极少数幸存者存活在莫斯科的深度地下避难所里(俄罗斯的地铁站在建造之初就有防空防炸防核防辐射的设计)人类文明进入了新的黑暗时代。直至2033年,整整一代人出生并在地下成长,他们长期被困在“地铁站”的城市。
测试参数设定:
这款游戏没有自带Benchmark程序,人工测试场景选择第一关从爬梯子开始直到消灭三个怪物后拉铁门结束,使用Fraps软件记录游戏帧率。两款GF100芯片显卡与HD5870运行在DX11最高画质设定下,GTX285运行在DX10最高画质设定下,测试使用1920×1080分辨率,开启AA/AF。
《地铁2033》部分支持PhysX特效,这个硬件杀手的淫威让GF100芯片刚出生就遭到羞辱,不过RV870就更惨了,已经到了接近看幻灯的程度。不可否认的是,NVIDIA的曲面细分优化功能再次发挥了作用。GTX285虽然运行于DX10模式下,但压力却丝毫未见减少。关于这款游戏,本次测试还道出了两个事实:第一,它的资源优化之差可与《孤岛危机》媲美,第二,无论是你用的是什么显卡,目前最好别考虑在最高特效的设定下运行。
DX10.1游戏:《鹰击长空》测试
● DX10.1游戏 《汤姆克兰西之鹰击长空》测试
类似经典的《皇牌空战》的座舱式模拟空战游戏,玩家可以驾驶超过50种飞机进行战斗。游戏的背景时间设定在2012年,那时的世界正越来越依赖于私人的军火公司(PMCs)。随着PMCs逐渐强大,世界正走向全球冲突的悬崖。这听起来好像是个足够充分的理由让玩家跳进自己的战斗机去干掉那些坏蛋。
测试参数设定:
使用游戏自带Benchmark程序,两款GF100芯片显卡与HD5870运行在DX10.1最高画质设定下,GTX285运行在DX10最高画质设定下,测试使用1920×1080分辨率,开启AA/AF。
《鹰击长空》开启抗锯齿后性能下降十分明显,但GF100因为新的ROP设计提高了抗锯齿能力,游戏帧率没有受到多大影响。HD5870这项测试彻底失败,与NVIDIA今昔两款卡皇均无法匹敌。
DX10.1游戏:《孤岛惊魂2》测试
● DX10.1游戏 《孤岛惊魂2》测试
《孤岛惊魂2》的画质和游戏引擎都较前作有了提升,许多不曾有的特效借由DX10.1引擎得以应用,彻底颠覆前作经常为人诟病的“画面偏卡通”特点,带给玩家耳目一新的真实体验。
测试参数设定:
使用游戏自带Benchmark程序,两款GF100芯片显卡与HD5870运行在DX10.1最高画质设定下,GTX285运行在DX10最高画质设定下,测试使用1920×1080分辨率,开启AA/AF。
DX10.1下HD5870颓势不减,GTX480/470以绝对优势获胜。
DX10游戏:《孤岛危机》测试
● DX10游戏 《孤岛危机》测试
《孤岛危机》(Crysis)是一款科幻题材的第一人称射击游戏,此游戏由德国游戏开发商Crytek制作开发,在由美国艺电发行,是孤岛危机三部曲的第一部。《孤岛危机》的背景发生在一群外星机器的船舰在地底被发现,玩家扮演三角洲特种部队中暴龙小队的成员──诺曼(Nomad)进行搜索和撤离的任务。这款游戏对硬件配置尤其是显卡的要求极高,发售没几天便获得“硬件杀手”的称号。
测试参数设定:
使用游戏自带Benchmark程序,所有参测显卡运行在DX10最高画质设定下,测试使用1920×1080分辨率,开启AA/AF。
变态的硬件克星《孤岛危机》灭杀了一代又一代显卡在高分辨率高画质下畅玩的希望,从这款游戏出现时的8800GTX到现在的GTX480,这期间显卡已经历了两次革命性升级,却不见运行这款游戏的性能有多少改观,着实令人费解。
这次HD5870总算挽回一丝颜面,还比GTX480高了1帧,只是这一帧中测试成绩合理波动的成分较大。
DX10游戏:《生化危机5》测试
● DX10游戏 《生化危机5》测试
《生化危机》,这个不朽的名字几乎任何80年后出生的男孩都知道。早在12年前这款游戏就已存在,并就此开创了AVG(冒险解谜类)游戏的先河。时至今日,《生化危机》系列已推出第五代作品,官方正式登陆PC平台,这次主人公要前往非洲无名小镇完成任务。相比第四代作品,《生化危机5》上的射击类游戏特征似乎更加明显。
测试参数设定:
使用游戏自带Benchmark程序,所有参测显卡运行在DX10最高画质设定下,测试使用1920×1080分辨率,开启AA/AF。
生化危机5得分呈现均衡态势,从GTX480至GTX285,帧率呈降序排列,ATi HD5870仅仅险胜GTX470,但与GTX480比仍输了将近20帧。
DX10游戏:《狂野西部》测试
● DX10游戏 《狂野西部》测试
《狂野西部》是款背景设定在狂野西部时代的FPS游戏。游戏动作成分居多,游戏方式基于快速精准的射击,以期营造那个时代的真实气氛。基于Chrome引擎创设的图像给人巨大的震撼和真实感,出色的音效让你仿佛置身于那个狂野的西部时代。
测试参数设定:
使用游戏自带Benchmark程序,所有参测显卡运行在DX10最高画质设定下,测试使用1920×1080分辨率,开启AA/AF。
《狂野西部》也是一款对硬件配置要求较高的游戏,大分辨率下画质全开设定下之前没有任何一款显卡能轻松胜任。GTX480运行它的速度比上代同级产品提升了一倍有余,可算是个伟大的进步,没有辜负用户一年多的期盼。在这款游戏测试中,HD5870仅能与GTX470打成平手。
DX10游戏:《英雄连之前线》测试
● DX10游戏 《英雄连之前线》测试
《英雄连》是一款即时战略类游戏。二战是几年来长盛不衰的3D游戏题材,这款游戏就是从101空降师诺曼底登陆后在欧洲战场血战题材入手的最新战略游戏,不过其自带测试并非针对即时战略的实际场景,反而更像第一人称射击视角游戏。
测试参数设定:
使用游戏自带Benchmark程序,所有参测显卡运行在DX10最高画质设定下,测试使用1920×1080分辨率,开启AA/AF。
对这频繁出现的性能对比状况,无需再多做评价,只能说“主板是一个茶几,上面插满了杯具”。
DX10游戏:《星际争霸2》测试
● DX10游戏 《星际争霸2:自由之翼》测试
《星际争霸》是个该载入电脑文化发展史册的绝世之作,它的第一部作品于1998年诞生于美国暴雪娱乐,奠定了“暴雪出品必定精品”格言。可能就连当时的制作者也不曾料到它会成为迄今为止最成功的即时战略游戏,就在这款游戏发售12年后的今天,世界各地仍然在开展这款游戏的比赛,孕育出无数令人敬仰的电竞明星。
游戏界赋予《星际争霸》的评价越高,对其续作《星际争霸2》的压力就越大,暴雪多年积累的口碑让“二代不如一代”变成对它的亵渎。于是竟然时隔12年之久,我们才有幸体验到《星际争霸2》的Beta试玩版,而正式发售日期更是无法预料。这款游戏支持DX10 API,游戏画面发生翻天覆地的变化,再也不是那个“无论多烂配置”都能流畅运行的游戏了。
测试参数设定:
《星际争霸2》没有自带的Benchmark程序,需要通过Fraps测试回放的replay来计算帧数,笔者在replay中选择了一个让显卡负载较高的固定场景和固定时间段用于测试。测试中所有参测显卡运行在DX10最高画质设定下,AA/AF开启。
在《星际争霸2》的测试中HD5870终于开始反击,帧率领先其余三款NVIDIA参测显卡,这多半得益于ATi Calalyst驱动中Calalyst Ai这个讨巧的优化功能。它的运行机制其实和NVIDIA对DX11和Tessellation的优化类似,只不过是应用在纹理过滤上。Calalyst Ai根据mipmap级别将较远处图形的纹理过滤级别降低,从而释放了一部分GPU资源。这样尽管远处场景的画质会降低,但就像前面介绍过的Tessellation优化一样,由于视角和像素量的问题,人眼基本不会有所觉察。
● ATi Calalyst Ai对即时战略游戏的影响
3D即时战略游戏的建模与其它3D游戏没有本质上的区别,也可以拉近或放远视角,但这类游戏的默认视角都是在最远处,也就是从最高空俯瞰全局。如此一来Calalyst Ai会自动将地面上几乎所有3D图形的mipmap识别为次要,降低它们的纹理过滤等级,便使GPU的负荷小了很多,帧率就会提高不少。这一点当初可能连ATi自己也没想到。
不过由于3D即时战略游戏没有明显的景深,人眼注视的焦点大多时候处于一个平面,Calalyst Ai造成的贴图画质下降在视觉上会相对明显一些。
可能有人要问:为何上述理论在《英雄连之前线》的测试中不成立呢?原因很简单,这款游戏虽是3D即时战略,但自带的Benchmark却完全以FPS游戏的场景进行,不具备即3D时战略游戏的特性。
DX10游戏:《战锤40000》测试
● DX10游戏 《战锤40K:战争黎明之混沌崛起》测试
《战锤40K:战争黎明2》的独立资料片《混沌崛起(Chaos Rising)》将增加血鸦军团的战役,结合20个任务,等级上限将提升到30级,并且加入新的英雄升级模式。这款游戏将角色扮演与即时策略融合的玩法导入新境界,此次将带领玩家一睹星际战士与混沌星际战士可歌可泣的奋战力量,将通过两者的游戏元素为玩家创造更紧张、刺激的游戏经验。
测试参数设定:
使用游戏自带Benchmark程序,所有参测显卡运行在DX10最高画质设定下,测试使用1920×1080分辨率,开启AA/AF。
《战锤40K》游戏引擎和制作风格与《星际争霸2》都如出一辙,在Calalyst Ai的帮助下,HD5870又保住了这一局的胜利。只是如果仔细看,游戏画面可能略打点儿折扣。
DX10游戏:《冲突世界》测试
● DX10游戏 《冲突世界》测试
《冲突世界》(World in Conflict)以发生于1989年的美苏大战为背景是一款重点在于单位策略、行动、团队合作和毁灭上的冷战时期的即时战略游戏。在多人对战中玩家可以选择苏联或者美国/北约阵营,指挥空军、装甲部队、步兵和支援单位组成的分队对抗敌人。通过控制地图的战略要地,使战局变得更有利于你。空军、装甲部队、步兵和支援部队的配合是游戏的关键,更能够成功地调配他的一方获得胜利。
测试参数设定:
使用游戏自带Benchmark程序,所有参测显卡运行在DX10最高画质设定下,测试使用1920×1080分辨率,开启AA/AF。
《冲突世界》是一款3D即时战略游戏,跟英雄连一样,它的Benchmark没有使用传统即时战略游戏视角,也不像一般的FPS游戏,倒是与《鹰击长空》有几分相似。自然Calalyst Ai用画质换速度的作用发挥有限,杯具便接踵而至。
DX9游戏:《街头霸王4》测试
● DX9游戏 《街头霸王4》测试
《街头霸王》由CAPCOM在我们童年时发布首部作品,最初属于电视游戏,一直伴随我们长大。如今《街头霸王4》正式登陆PC平台,使用全新3D引擎制作,由现代图形技术加入诸多特效,全方位全角度格斗令人回味无穷中又酣畅淋漓。
测试参数设定:
使用游戏自带Benchmark程序,所有参测显卡运行在DX9最高画质设定下,测试使用1920×1080分辨率,开启AA/AF。
游戏测试进入到DX9阶段,帧率开始数以百计,对这四款参测显卡而言,流畅与否不再是问题的焦点,谁最后胜出才是我们关心的。GTX480以30帧的优势力压对手,GTX470越级挑战HD5870,差距在10帧以内。
DX9游戏:《现代战争2》测试
● DX9游戏 《使命召唤:现代战争2》测试
《现代战争2》是《使命召唤4》的续篇,在前作大获成功的背景下,这款游戏还未发布便呼声甚高,果不其然,《现代战争2》的首发场面空前火爆,甚至连央视新闻都对各国的发售现场做了报道,而它也确实不辱使命,一出即成为当前最热门的射击类游戏之一。
测试参数设定:
《使命召唤:现代战争2》没有自带的Benchmark程序,也无法录制demo,只能使用Fraps选择固定路线进行人工测试。为确保测试准确,每片显卡多次测试后取平均成绩。所有参测显卡运行在DX9最高画质设定下,测试使用1920×1080分辨率,开启AA/AF。
在这款公认最强的战争题材FPS大作中,GTX480与HD5850基本算平分秋色。有趣的是GTX285的测试结果与GTX470相同,数年前的DX9引擎没有让这个GF100的准旗舰显卡占到便宜。
《DX9游戏:《求生之路2》测试》
● DX9游戏 《求生之路2》测试
《求生之路2》(Left 4 Dead 2)是2008年由维尔福软件公司开发、以丧尸为主题的恐怖生存类游戏《求生之路》的续集,游戏初次于2009年电玩E3展亮相,并已在2009年11月17日于PC以及Xbox 360平台上发行。
测试参数设定:
《求生之路2》没有自带的Benchmark程序,可以通过录制demo,然后由控制台输入“timedemo”指令进行性能测试。为确保测试准确,每片显卡多次测试后取平均成绩。所有参测显卡运行在DX9最高画质设定下,测试使用1920×1080分辨率,开启AA/AF。
这是最后一款DX9游戏测试,HD5870突然暴起,找到了“求生之路”。
PhysX游戏:《镜之边缘》测试
● PhysX游戏 《镜之边缘》测试
《镜之边缘》(Mirror's Edge),是一款由瑞典DICE游戏工作室开发的第一人称动作游戏,基于NVIDIA PhysX系统。该游戏从跑酷运动中获得灵感,以“第一人称”和“动作跑酷”的结合为主要特色。玩家能够在第一人称视角下做出爬墙、撞门、荡摆、翻滚等跑酷动作。玩家需要根据地形和敌情,灵活运用多种跑酷技巧逃脱敌人的追击,并以最快速度到达目的地。
测试参数设定:
《镜之边缘》没有自带的Benchmark程序,也不能录制demo,需要用Fraps对固定路线进行测试。所有参测显卡运行在PhysX最高画质设定下,测试使用1920×1080分辨率,开启AA/AF。
这着实是个奇怪的测试结果,所有显卡无论性能高低获得的帧数都相同。可能是这款游戏强制约束了帧数上限,而四款显卡运行此游戏的最低速度又不少于62fps造成的结果。更奇怪的是,不支持PhysX技术的ATi显卡并没有出现异常。
PhysX游戏:《暗黑虚空》测试
● PhysX游戏 《暗黑虚空》测试
由Airtight Games开发的《暗黑虚空》是一款混合了空中格斗和地面第三人称动作游戏,支持NVIDIA PhysX物理加速。游戏开始,我们的主角,货运飞机驾驶员Will 在穿越百慕大三角时,被卷入了外星空间,在那里他遭遇到了一种被称为Watcher(观察者)的邪恶敌对种族。
测试参数设定:
《暗黑虚空》没有自带的Benchmark程序,也不能录制demo,需要用Fraps对固定路线进行测试。参测的NVIDIA显卡运行在PhysX最高画质设定下,而ATI显卡运行时,游戏设定中的PhysX一项只能设定为“Low”。测试使用1920×1080分辨率,开启AA/AF。
在这款基于NVIDIA平台开发的游戏中,尽管HD5870没有背负物理加速的包袱,却依然不能奈何对手。
PhysX游戏:《蝙蝠侠》测试
● PhysX游戏 《蝙蝠侠之阿卡姆疯人院》测试
由Rocksteady Sudios开发,Eidos发行的《蝙蝠侠:阿卡姆疯人院》是根据Grant Morrison同名漫画改编,堪称蝙蝠侠历代最黑暗的一作,游戏中的加入了大量的PhysX特效。阿卡姆疯人院里关的都是蝙蝠侠亲手逮捕的罪犯。某天,以小丑为首的病人们声称觉得“无聊”,所以劫持了医护人员,要求蝙蝠侠前去陪他们“ 游戏”。这场疯狂的迷藏中,占尽优势的是反派们,蝙蝠侠不仅要提防杀气腾腾的各个患者,同时他自己的精神状态也处于失常的边缘。
测试参数设定:
使用游戏自带Benchmark程序,参测的NVIDIA显卡运行在PhysX最高画质设定下,ATi HD5870可以运行游戏但不能开启PhyzX加速。测试使用1920×1080分辨率,开启AA/AF。
这款游戏中物理计算的成分较高,三款NVIDIA显卡运用CUDA核心的PhysX加速功能应对自如。而HD5870则在NVIDIA的地盘上明显水土不服。
本文的所有评测到此告一段落,最后我们将汇总展示测试数据,归纳阐述GTX480/470显卡的重要功能/性能更新。
笔者点评GTX480与5870的交锋
●笔者点评GTX480与HD5870的交锋
在本文的评测部分,我们没有事先对测试游戏进行偏向任何一方的筛选,也没有人为地干扰测试结果,所有操作都秉持严谨和公正的态度进行。结果是基于NVIDIA新一代GF100核心制造的GTX480显卡在绝大多数测试项目中以压倒性优势击败竞争对手,尤其是在代表未来游戏发展方面的DX11测试中,就连更低一级的GTX470也出现数次越级挑战HD5870成功的案例,这似乎已经说明了问题。
在全部的22项测试中,HD5870仅有四款游戏测试对GTX480形成压力,这其中的两款即时战略游戏还存在争议。A卡驱动中的“Calalyst Ai”可能会因即时战略游戏传统的“高空俯瞰视角”自动降低整个画面的纹理过滤效果,从而获得可观的速度提升,但出现这种情况时往往画质就难以保证了。反证就摆在眼前:同样基于DX10 API的另外两款3D即时战略游戏由于Benchmark没有采用传统视角,而导致了截然相反的测试结果。若上述理论成立,那么HD5870与GTX480交锋真正算赢的只有两款游戏而已。
所有这些测试都是在A卡使用“性能提升很大”的10.3正式版驱动的前提下进行的,已有足够多的事实说明Fermi这个NVIDIA历史上酝酿时间的最长的芯片升级计划获得了成功。接下来的后续工作应该是专注于改进制程,降低热功耗,最终让GF100芯片元神归位,实现512个SP火力全开的盛况。
GF100产品测试汇总及重要特性陈述
● 测试结果总表
纵观全文,在GTX480/470显卡新加入的种种特性中,对用户日常使用影响最大的可归纳为以下五点:
★ GF100内集成512个SP处理器,而首款采用GF100芯片的显卡GTX480启用其中的420个,相较上代旗舰GT200B增加了一倍。
★ GD100全面更新了内核架构,首次提出GPC概念并支持DX11 API。核心内新加入的多个Polymorph、Raster引擎能够合理协调资源优化DX11精髓Tessellation的性能,对越来越多的DX11游戏有极其重要的意义。
★ 核心整合384bit显存位宽接口并支持GDDR5显存,可创造目前最快的显存理论传输速度。
★ 3D Vision Surround加入能将三台显示器合并为一台,支持边框修正,同时能应用3D Vision功能让你在家中就能获得如IMAX 3D般的体验。
★ 让光线追踪技术步入实用范畴,在光滑表面上你可以看到完全符合现实逻辑的物体反射,而不是简单设定的几种影像。
品牌展示:索泰GTX480/470● 索泰GTX480/470图赏
品牌展示:太阳花GTX480
● 太阳花GTX480图赏
品牌展示:微星GTX480/470
● 微星GTX480/470图赏
品牌展示:盈通GTX480/470
● 盈通GTX480/470图赏
品牌展示:影驰GTX480/470
● 影驰GTX480/470图赏
品牌展示:驭威470
● 驭威GTX470图赏
品牌展示:华硕GTX480/470
● 华硕GTX480/470图赏
品牌展示:技嘉GTX480/470
● 技嘉GTX480/470图赏
品牌展示:映众GTX480/470
● 映众GTX480/470图赏
品牌展示:讯景GTX480/470
● 讯景GTX480/470图赏
品牌展示:耕昇GTX470
● 耕昇GTX470图赏
品牌展示:铭瑄GTX480/470
● 铭瑄GTX480/470图赏
品牌展示:七彩虹GTX480/470
● 七彩虹GTX480/470图赏
网友评论