四、壮士断臂:NetBurst架构终于落幕,Core架构临危授命
既然NetBurst架构已经无法满足未来CPU发展的需要,那么Intel就必须开辟全新的CPU核心架构。事实上,Intel就早做好了技术准备,迅驰III中的Yonah移动处理器已经具备Core核心架构的技术精髓。Intel于前不久正式公布了全新的Core核心架构:未来台式机使用Conroe,笔记本使用Merom,服务器使用WoodCrest,这三款处理器全部基于Core核心架构。
1.流水线效率大幅度提升
主频至上的CPU研发思路显然已经被淘汰。Core架构的处理器将超流水线缩短到14级,这将大幅度提升整体效率,令CPU避免出现“高频低能”的尴尬现象。然而更加值得我们关注的是,Core架构采用了四组指令编译器,这与Pentium M处理器有些类似。所谓四组指令编译器,就是指能够在单一频率周期内编译四个x86指令。这四组指令编译器由三组简单编译器(Simple Decoder)与一组复杂编译器(Complex Decoder)组成。四组指令编译器中,仅有复杂编译器可处理最多由四个微指令所组成的复杂x86指令。如果不幸碰到非常复杂的指令,复杂编译器就必须呼叫微码循序器(Microcode Sequencer),以便取得微指令序列。
为了配合超宽的编译单元,Core架构的指令读取单元在一个频率周期内,从第一阶指令快取中,抓取六个x86指令至指令编译缓冲区(Instruction Queue),判定是否有符合宏指令融合的配对,然后再将最多五个x86指令,交派给四组指令编译器。四组指令编译器在每个频率周期中,发给保留站(Reservation Station)四个编译后的微指令,保留站再将存放的微指令交派(dispatch)给五个执行单元。
自从 AMD 失败的 K5 设计之后,已经有超过十年的时间,x86处理器的世界再也没有出现过四组指令编译器的设计。因为x86指令集的指令长度、格式与定址模式都相当混乱,导致x86指令解码器的设计是非常困难的。但是如今的局面已经有所改变,一方面是高主频对于四组精简结构有着很大的依赖性,另一方面是其它辅助性技术也能很大程度上弥补解决定址模式混乱的难题。毫无疑问,Intel的这一创举将是在CPU核心架构设计上具有里程碑意义的,未来我们将有望看到CPU的整体性能有大幅度提高。
Conroe完成128bit向量运算的示意图
2.全新的整数与浮点单元
从P6到NetBurst架构,整数与浮点单元的变化还是相当明显,不过如今Core架构的变化也同样不小,只是部分关键技术又改回P6架构时代的设计。Core具备了3个64bit的整数执行单元,每一个都可以单独完成的64位整数运算操作。这样一来Core就有了一套64bit的复杂整数单元(这一点和P6核心的CIU相同),以及两个简单整数单元用来处理基本的操作和运算任务。但是非常特别是的是,3个64bit的整数执行单元中的一个简单整数单元和分支执行单元将会共享端口。该端口处的简单整数单元将和分支单元共同完成此处的宏指令结合的任务。
如果说Core架构就是P6架构,那无疑是不公平的。能够独立完成64bit整数运算对Intel x86处理器来说还是头一回,这也让Core得以走在了竞争对手的前列。此外,64bit的整数单元使用彼此独立的数据端口,因此Core能够在一个周期内同时完成3组64bit的整数运算。极强的整数运算单元使得Core在包括游戏、服务器项目、移动等方面都能够发挥广泛而强大的作用。
Core构架的设计图
在以往的NetBurst架构中,浮点单元的性能很一般,这也是为什么AMD处理器总是在3D游戏中有更好表现的原因之一。不过Core构架进行了不小的改进。Core构架拥有2个浮点执行单元同时处理向量和标量的浮点运算,其中一个浮点单元执行负责加减等简单的处理,而另一个浮点单元则执行负责乘除等运算。尽管不能说Core构架令浮点性能有很大幅度的提升,但是其改进效果还是显而易见的。在多项测试中,Conroe台式机处理器已经能够打败AMD高端的FX62。
Core构架的整体效率以及高于AMD K8
网友评论