三大次世代主机的硬件设计思維比较

互联网 | 编辑: 2006-10-23 10:26:45 一键看全文

Xbox360中央处理器

  2006年,由微软抢先发起的次世代主机战争,XBOX360在极占优势的主机性能表现下,在欧美取得了相当不错的成绩,在今年2007年底,另外两部众所期待的次世代主机也即将接连面世,三大主机的正面交锋将从11月11日PS3正式上市开始,到12月Wii发售时进入高潮,不过在发售初期,由于产量还有限,一些市场效应也还不明显,所以要看到三大主机初步分出胜负,至少得等到2008年以后了。 

  清一色Power微架构处理器 设计着眼点不同能力各擅胜场跟前一世代游乐器主机中央处理器百家争鸣的状况来说,这次的〝次世代〞主机采用的处理器,清一色都是IBM经手的Power微架构处理器,虽然指令集大多相同,但是在架构与适用范围上却大异其趣。

Xenon的晶片架构

(资料来源:IBM)我们就从最早现身的次世代主机XBOX360介绍起。

  XBOX360采用的中央处理器Xenon,是个具有三核心的Power架构处理器,处理时脉为3.2GHz,在每个核心(PPE)中,包含了两个硬体执行绪设计,以及一个SIMD处理单元VMX-128。PPE本身是一个单周期双指令issue双执行绪的处理核心,具备有七个执行单元,这些执行单元包括了整数处理单元(Integer Uint)、浮点运算单元(Scalar Floating Point Unit)、载入/储存单元(Load/Store Uint)、分支单元(Branch Uint)、VMX浮点单元(VMX Floating Point Unit)、VMX置换单元(VMX Permute Unit)及VMX简单单元(VMX Simple Unit)等。

VMX是Vector Multimedia eXtension的简称,基本上与传统Power处理器上的VMX指令集类似。不过与传统Power架构处理器所使用的VMX延伸指令集比较起来,Xenon中的VMX-128从32个暂存器增加到128个暂存器,每个暂存器的定址也都扩展为128-bit,因此称为VMX-128。由于每个执行绪都具有独自的VMX暂存器,因此单一PPE中即具有256个物理VMX暂存器的存在。当然,为了适应XBOX的3D处理及运算需求,这些VMX-128指令集与原先的在Power PC处理器上的VMX指令集相较起来已经有了些许变动。除了增加一些专为微软所设计,应用于3D加速处理的指令集,包含了针对Direct3D的pack与unpack指令集、顶点产生指令以及加速人工智慧运算的相关指令集,除此之外也删除了一些在游乐器处理环境下所不需要使用的多余指令集,形成了自成一派的特殊VMX指令集分支。

PPE的架构设计

  至于PPE所采用的双执行绪设计,则与Pentium4中的SMT概念非常类似,但是在SMT的效率表现方面,比起Intel的架构下的SMT实作方式要优秀不少。而PPE所采用的管线架构也与NetBurst架构有着异曲同工之妙,两者的设计理念都是在不增加执行单元的前提下,转而增加执行管线长度的方式,藉由时脉的提升来达到增进效能的目的。PPE中的管线就高达了21阶,与Pentium4的NorthWood核心相同。不过NorthWood核心是为了因应AMD处理器架构的高效能表现,在急于拉高时脉的前提之下所做出的权宜手段,并不是什么聪明的设计,而处于多核心时代的PPE架构采用这么深的管线设计,自然也有更深层的原因。

  加长管线设计,除了能有助于串流资料的处理以外(例如连续不断的影音资料、贴图材质等),加上游乐器平台本身的封闭性设计,游乐器当然就是专注于游戏的执行以及影音娱乐的处理,不必考虑到处理其他类似办公软体、防毒程式所需要的处理方式,在程式码的撰写方式为可预期的情况之下,加上开发套件的最佳化,PPE在处理资料预取与分支预测的工作上自然就较有效率,也因此可以避免如同Pentium4这类处理器需要为各种运算需求考量,且无法预测程式设计师的开发习惯的情况之下,所必须要为处理器架构本身做的全方为设计考量。虽然在分支预测的设计采软体方式完成,技术上要明显不如Intel的X86处理器,因此在这样的运算环境之下,加长管线的设计方式还是有其优势存在。

  而在快取记忆体的架构设计上,单一个PPE核心,L1快取的容量为64KB,指令快取与资料快取各占一半,虽然以这么21阶的深管线架构处理器来说,有点偏小,但是考虑到Xneon不需要进行一般PC平台所需要的通用运算,因此仍显得绰绰有余。而L2快取方面,三个PPE核心共用1MB快取记忆体,相较起现在X86处理器动辄每个核心1MB或2MB的L2快取设计,以及伺服器处理器中动辄数十MB的L2或L3快取,以比例来看真的是小到不行

  但如前所述,游乐器平台的封闭应用,在处理器的设计上资然不需要考虑到通用计算方面的需求,而由于串流资料的特性,分支与预取方面的设计不需要太复杂即可达到一定的准确度,自然也不需要为了加速随机资料的存取而设计大容量的L2快取记忆体,加上以目前的制程技术而言,IBM要在Xenon小小的面积中塞入三个核心,本身就是一个极大的挑战,如果在快取记忆体上使用了过多的电晶体,不仅对于速度上改进效果不明显,而造成浪费,且还会进一步加大功耗以及晶片面积,对于制造良率以及成本控制上只会雪上加霜而已。

提示:试试键盘 “← →” 可以实现快速翻页 

总共 3 页123
一键看全文

本文导航

相关阅读

每日精选

点击查看更多

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑