PS3中央处理器
CELL的晶片架构。(资料来源:IBM)
PS3的CELL处理器
而PS3所使用的CELL处理器,则可以说是集IBM、SONY及TOSHIBA技术大成之作,与XBOX360的Xenon同样的,是基于Power架构之下变体架构,由一个PPE核心与八个功能类似于DSP的SPE(Synergistic Processing Element)所组成,最初时脉原设定为4.6GHz,但后来随之更改为4GHz、3.6GHz,最后的发表的正式版本则是定在3.2GHz,据信是由于其发热量与功耗过于惊人而不得不做的决定。CELL的未来规划非常远大,除了应用在PS3之中,也可以配合规模缩减应用在各种嵌入式应用。 CELL中的PPE与Xenon中的PPE非常类似,可以说几乎是系出同。同样是具有同时执行两个执行绪的SMT架构,也具有VMX-128处理单元,但是L1快取记忆体减半,L2快取记忆体也只有512KB,且L2快取的运作时脉仅为PPE本身的一半。在分支预测方面的机制,也同样使用软体方式进行,配合其双执行绪分担的方式来避免分支预测的错误发生造成效能冲击。总合来说,CELL的PPE在纯粹运算效能表现上要略逊于Xenon的单一PPE,,且Xenos有3个核心可供分配应用,因此PS3在进行通用运算或AI计算方面的能力要明显不如XBOX360。
至于在八个跟班-SPE处理单元方面,则是基于SIMD架构的128-bit运算处理单元,可进行单精度或倍精度的处理计算。SPE是一个功能完整的独立微处理器,但被极度简化,不能如同PPE般应用于通用计算方面。每个SPE处理单元都内建了一个SPU(Synergistic Processing Unit)处理单元以及一个SMF(DMA、MMU和汇流排介面)处理单元,每个SPE包含了256KB的记忆体,称为local store,以作为本地端的资料与指令储存所用,不过SPE可支援的local store记忆体定址理论上可以达到4GB,为了成本考量而将Local Store限定在256KB,反而对效能造成了冲击。
SPE还拥有总共达7个的执行单元,包括一个整数单元,所以SPE能够执行整数运算以及SIMD浮点计算。SPE可以进行16个8位元整数、8个16位元整数或4个32位元的整数运算,也可以在单周期内同时进行4个单精度浮点运算。
SPE上并没有设计分支预测机制,因此所有的分支预测都是采用软体方式进行,利用在编译器阶段,就对可能造成的分支进行消除及最佳化的动作,比如说原本一个单纯的回圈语法,应用到SPE中,就必须将该回圈解开,将每个动作都一条一条排进管线执行,或者是留在暂存器中重复执行,而这也是为什么SPE会设计128个暂存器的原因之一。
传统处理器在设计方面的加强方式可能是透过对IPC(Instruction Per Clock)或ILP(Instruction-Level Parallelism)的加强来取得效能的增长,但是SPE舍弃了对ILP可能的最佳化,而采用另外一个方式,也就是TLP的最佳化,一般来说,TLP最佳化包含了CMP(Chip Level Multiprocessing)或SMT方式,一些较高阶的应用甚至可能会使用SMP或NUMA的方式。采用TLP的方式,并牺牲了ILP的可能最佳化动作,是为了求在晶圆内塞进更多SPE处理单元,以多处理器平行进行运算的方式,达到高效能的表现。
以游戏开发的观点来看,CELL可以说是为了游戏用途特化程度最明显的一款处理器,以CELL的能力来说,不论是对于浮点、向量或是串流资料的高速处理能力,完全都符合了一款游戏机对于性能的需求,但是CELL偏弱的PPE,却可能限制了SPE的表现,加上软体开发商最终所能取用的SPE数量,可能只有到6个而已(1个备而不用,1个会被系统所占用),CELL当初所宣称的极限性能,如今看来也不过是有如政治人物所下的空头支票而已,政治人物因为没有达到当初承诺而下台的比例有多少?可以说少之又少。那么CELL会因为没有达到当初的性能承诺而使得PS3败阵?现在就要下判断也稍嫌过早,而且以某些方面的计算能力而言,CELL的确是三大主机中最强的没错。
三大中央处理器核心设计与运用区分
但是以中央处理器的观点来看,CELL可以说是基于过去设计方法中去芜存菁所设想出来的最佳方式,异质多核心的架构并不是首创,从TI早期的嵌入式处理器就可看到此类MPU结合DSP的处理器架构。而在未来,X86处理器大厂Intel与AMD,也都会相继引进这样的架构,不论是结合记忆体控制器,或者是结合绘图核心、物理处理器、AI处理器,甚至是结合记忆体等设计方式,CELL也只不过是这些必经途径之中的一条路而已,虽然要让CELL主宰PC桌面通用计算环境有其困难,但是在一些需要绘图加速/物理计算方面的工业/商业应用上,CELL已经开始崭露头角,类似CELL架构的PPU(物理计算处理器)也已经出现在桌面环境中,或许我们不能在未来的中央处理器市场看到CELL,但是CELL可能会以其他方式入侵我们的PC环境也说不一定。
至于在这个阶段的最后,我们来看看Wii所使用的Broadway处理器,由于基于此款处理器的资讯还很少,任天堂甚至也不打算公布其相关技术讯息,因此我们只能以推测的方式来看这款处理器。以其制程、架构与时脉设定来看,一般据信该处理器是由Power 750 GX所脱胎换骨而来。任天堂前一代游乐器GameCube中所采用的Gekko处理器,其功耗在700MHz时仅为5W,而Power 750GX在1GHz时也只需要7W,考虑到Broadway时脉为729MHz,且快取仅为750GX的一半,相信功耗方面仍维持在Gekko的水准,不至于会超过5W,但是性能显然会比时脉仅有405MHz的Gekko要强上许多。Broadway所扮演的角色并没有肩负起大部分的运算,主要是作为辅助处理之用,因此是定位为MPU(Microprocessor Unit),而不是CPU。
Broadway处理器显然不是以追求最高性能为出发点,除了难以想像的低耗电以外(不到5W对比Xenon的85W以及CELL的超过100W),在晶片面积上更取得了绝佳的优势,5mm^2的晶片面积所带来的低单位成本,相较起来,CELL的成本高了将近数十倍(以推论的200美金左右计算),这显然是任天堂软体硬体都要赚的决策中,相当重要的一大关键。 在处理器这方面的比较,单纯就运算能量来看,CELL与Xenon的表现其实差不了多少,若是处于同样的通用运算环境之下,那么Xenon可能仅只与一颗普通的P4处理器相当而已,CELL表现只会更差,Broadway更不用说了。但是考虑到其身处的运算环境的特殊性,以及为了制造成本的考量之下,舍弃了全面加强,而使用局部加强特化的方式,使其符合游乐器运算用途,并透过不同的最佳化手段来达到高效能运算的目的。
在XBOX360处理器中的多核心架构下,虽然目前的游戏大多仅用到1∼2个执行绪来开发,但是相信这个情况在不久的将来会有改变,比如说在今年秋季Intel举办的IDF中,所展示的一款3D游戏Alan Wake中,就以多达5个同步处里的执行绪为主打,该游戏虽然在展示时是以Intel的4核处理器为平台,但是随后也会有XBOX360的版本。以这一类讲求超真实的环境互动以及贴图着色的多执行绪游戏来说,伯仲之间的Xenon与CELL大概还能游刃有余,但是Broadway就很难负担起这类游戏的运算需求了。至于PS3方面,由于CELL处理器诸多的限制,游戏开发商怨声载道,虽然情况已经比当初的PS2好上许多,但是以目前三大次世代平台来看,PS3的开发难易度显然是敬陪末座的。Wii由于在硬体特性上与前代主机大致相同,在开发套件上的完整性自然不是白手起家的XBOX360与PS3所能相比,虽然Broadway理论性能不如CELL与Xenox,但是任天堂对Wii的期许并不是以高效能声光娱乐为主,所以在480i/480p的Wii标准执行解析度下,Broadway还是相当游刃有余的。
显示能力大不同 已故的ATI对上NVIDIA
相较起处理器由IBM一家通吃的状况,显示晶片的部分则是划分为两大势力的争霸,即为ATI阵营的XBOX360与Wii,对上NVIDIA阵营的PS3。
Xenos与RSX及G70的规格比较。(资料来源:NVIDIA、ATI)
先从NVIDIA阵营这边说起,PS3采用的是基于G71的绘图处理器RSX,不过在规模上略有缩减,并在着色处理器方面进行了小部分的加强,核心时脉为550MHz,记忆体时脉为650MHz,这些比7800GTX略高,但是在相当重要的记忆体宽度上,则是从256-bit缩减为128-bit,并且把影响像素填充率的ROP处理单元缩减了一半,这也造成了游戏玩家对于PS3是否真能负担起1080P游戏画面处理运算的疑虑。在这边我们以RSX的时脉550MHz乘以8个ROPs,所得出来的像素填充率仍有4.4G pixel/sec左右,对比1080P所需要的像素填充率也只需要1.24Gpixels/sec,基本上可以说,即使ROPs缩减到4个,撑起1080P运算仍然是绰绰有余,甚至还可以在1080P解析度下,勉强进行2倍的全萤幕反锯齿。
而关于这点,我们可以在东京电玩展上,PS3首发的游戏阵容中,已经可以看到不乏1080P 60FPS稳定运作的游戏,虽然某些开发度较低的游戏还有画面张数不稳定的问题,但是基本上已经确立,PS3要执行1080P游戏已经不是问题。
PS3在初始规划时,原先并不打算采用第三方的绘图晶片,而是要使用如同PS2时的方式,采用CELL架构,并附加一些绘图功能必须的图形电路与处理单元,形成完整的绘图核心,不过迫于XBOX360的压力,加上CELL本身也陷入瓶颈,所以才会退而求其次,采用与微软决裂的NVIDIA公司所生产的绘图晶片做为解决方案,虽然很多评论都质疑这样的方式过于急就章,硬凑起来的架构在开发难度上更是惊人。不过考虑到CELL本身的复杂性,以及SONY在PS2发表初期开发工具极度缺乏的〝优良〞传统,SONY下这样的决定或许才是正确的也说不定。
Xenos与eDRAM及主记忆体之间的频宽表。(资料来源:ATI)
至于在ATI方面, XBOX360所使用的Xenos绘图控制晶片,本身是融合了R520以及次世代R600部分特性的产品,在技术规格上十分先进,除了配备有采用统一着色架构的48条着色管线,支援了部分DirectX10的特性,并且内建了10MB的eDRAM,虽然Xenos本身只占了2亿3千万个电晶体,但是eDRAM部分要额外再增加1亿个电晶体,对比RSX的不到3亿个电晶体,晶片成本显得相对昂贵些。至于在处理效能方面,纯就晶片本身而论,是赢过ATI桌面图形处理器R520,甚至达到R580的程度的,不过XBOX360的架构设计,使得Xenos被应用于游戏画面计算时,同样也是处于绑手绑脚的境地。
Xenos的处境与过去PS2的GS绘图处理器类似,由于必须与处理器及其他周边共享主记忆体22.4GB/s的频宽,在应用上显得不足,所以多设计了1颗eDRAM在绘图晶片封装上,与绘图晶片线路直接连接,除了具有缓冲的功能以外,这10MB的eDRAM也可以协助Xenos进行全萤幕反锯齿的处理。不过问题来了,虽然这eDRAM内部处理频宽可达到256GB/s,但是与Xenos的连接部分仅有32GB/s的频宽,而且eDRAM必须要被动透过Xenos与主记忆体的狭窄频宽连结去存取所需要使用的材质与Z轴资料。 虽然eDRAM负担了所有的反锯齿、Z轴缓冲以及Alpha Blending等亟需频宽的处理,但是主记忆体汇流排被塞住,GPU拿不到足够的资料,自然也无法喂给eDRAM做后续动作,因此产生了延迟现象。由于开发套件设计的相当便利,大多数游戏开发商只有遵照着规则下去进行游戏开发,没有考虑遇到类似状况时的瞬间庞大频宽需求需要,必须如何预先载入或分摊,因此在角色多或者场景复杂的游戏中,还是常可见到这类延迟的发生。如果厂商在开发过程中多留意一下,其实这样的情况是可以避免的。 在整个XBOX360绘图架构中,有eDRAM肩负起了缓冲以及特效后制的作用,但是Xenos与PC桌面环境中的R580甚至是前代的R520相比,Xenos所能取得的频宽资源明显少了一截,加上Xenos与eDRAM在原先设计上,就是针对720P解析度配合全萤幕反锯齿的方式为前提,本身要进行720P全萤幕反锯齿时,也必须使用Tiling rendering,并配合Predicated Tiling技术,降低eDRAM的耗用量,并且将画面进行切割来分块处理,之后再合并成完整经过反锯齿处理之后的画面,如果绘图引擎没有支援Tiling rendering的话,光凭这10MB的eDRAM,是不足以对720P的像素资料进行4倍MSAA(Multi Sampling Anti Aliasing)处理的。
虽然微软把720P订为游戏开发标准解析度,不过微软可没慷慨到为游戏公司提供免费绘图引擎,每家公司自有的引擎也不一定能够适用这些技术,因此720P 4倍反锯齿并没有普及到每个XBOX360游戏之中,而且eDRAM还要负责大部分的特效后制,全萤幕反锯齿也必须耗费多余的计算能力与主记忆体空间,因此就实际应用来看,10MB eDRM容量是相当捉襟见肘的。
虽说微软将把1080P也纳入支援的范围,但是这在样的情况之下,万一有游戏厂商敢于挑战自我,推出真正1080P的XBOX360游戏,在同样的厂商技术层次之下,其最终结果并不会比PS3的原生1080P好。至于想让全部的XBOX360游戏都采用720P加4倍反锯齿的画面呈现,短期间内还不容易达到。
而在Wii所使用的Hollywood绘图核心方面,其能力约相当于ATI的RV530,核心运作时脉为243MHz,内嵌了3MB的eDRAM。在专属绘图记忆体方面,采用1T-SRAM,容量为24MB,但是碍于汇流排宽度,频宽仅为3.9GB/s,这样的架构在XBOX360以及PS3两大巨人面前,显得相当弱不禁风。不过以其标准解析度480P而言,其实是相当足够的,而且在特效支援方面,基本上与Xenos差不多齐备,同样也支援HDR+AA的方式。 Wii在绘图晶片上的选择一样是秉持着经济至上的大原则,由于游戏画面并不是Wii的主打强项,因此解析度不需要求太高,但是在其规格范围之内,Hollywood绘图核心仍能有不错的性能与特效表现,但是画面等级约等同于前一代主机的水准(GC、XBOX),明显与XBOX360、PS3有段不小的落差。
以三大游戏主机所采用的不同绘图技术来看,PS3为了符合1080P的最低标准而下了不少苦心,但是所得到的回报还算不错,虽然缩减了RSX的规模,但是效能依旧维持在堪用的范畴之内。XBOX360则是还挣扎在720P之间,极需要有新技术的导入,藉以突破在FSAA处理上的困难,至于未来将要纳入支援的1080P,其实不用过度期待,以XBOX360的显示特性来看,未来即使将1080P纳入支援标准,但采用的厂商不可能会太多,除了微软本家旗下的游戏工作室以外,就只有一些硬底子,具有超强绘图引擎技术的公司比较有纳入支援的希望,在XBOX360系统开放1080P后的一两年,甚至是整个XBOX360的生命周期之内,纯正1080P血统的游戏数量相信是屈指可数的。而在Wii这边,以游戏性为主打,连任天堂本家也不愿意对其处理器以及绘图技术多所谈论,仅表示性能相当强劲而已,详细规格也从没有透露出来。当然,追求极限视觉效果的玩家,还是得寄望XBOX360以及PS3。
网友评论