发布在即 CONROE架构详介及产品体验

互联网 | 编辑: 2006-07-24 00:00:00转载 一键看全文

英特尔酷睿微架构产品发布日期一天天地临近,我们犹如感受到了五月天那样扑面而来的热浪。凤凰涅磐,六年的蛰伏,量的积累终于带来了一次质的飞跃。基于英特尔新一代微架构的产品势必将掀起台式机、服务器和笔记本产品的革新。

发布在即 CONROE架构详介及产品体验(12)

⒌英特尔高级数字媒体改进

  对于苹果电脑迷们来说,苹果迁移到Intel平台可能让他们最不放心的就是失去了原有PowerPC处理器上的AltiVec技术, 不过这些用在现在可以放心了,因为酷睿™ 微架构特别改进了它的前辈糟糕的矢量处理能力,也就是常说的单指令多数据(SIMD)性能。

  在上面讲述Conroe执行单元结构的时候提到,128-bit浮点算术运算操作通过 FADD/VFADD 和 FMUL/VFMUL 两条流水线进行,这两个单元是矢量和标量浮点操作兼顾的设计,其中每一个都可以进行浮点和矢量计算器移动操作。

  从获得的信息来看,矢量整数单元连接在 ports 0 和 1上的设计被扩展到 128 bit,这样就顺理成章的具备了单周期完成128bit的矢量整数的能力。我们现在假设它们的构造和PIII类似,一个单元负责 128-bit VALU/shift操作,而另一个负责 128-bit VALU/multiply操作。

  Conroe对提高处理SSE/SSE2/SSE3处理能力的最大改进之一:为所有矢量处理单元提供真正的128-bit 数据通路。

  真正的128-bit矢量处理能力

  当Intel决定为Pentium 产品线加入SIMD扩展指令(SSE),用以获得128-bit 矢量处理能力的时候,其结果并不像程序员或者是最终用户想像的那么完美。 SSE以及它们的继任者 (SSE2 and SSE3) 在P6 和PM(Banias)构架上运行都存在两个设计缺陷:在本身的扩展标准上,SSE的主要缺陷是缺少对三操作数指令的支持,这就让它在执行效率和性能上比起PowerPC上的AltiVec 落了下风。在实施硬件设计上,Intel将128-bit 操作硬生生的塞入P6核心的64-bit 数据通路中也大大限制了128-bit SSE 操作的性能发挥。

  我们知道P6 核心用以传输浮点运算和MMX指令的数据总线只有64bit位宽。这样以来连接SSE执行单元的输入端口也同样只有64bit的位宽了。为了在64-bit SSE 单元上执行128-bit的长指令,P6必须先把这条长指令分解为一对可以在后续周期中可以执行的一对 64-bit 指令。

  在新的Core构架上,英特尔这次终于为我们提供了单周期延迟的128-bit 矢量操作能力。Intel通过将浮点和矢量内部传输总线提升到128bit位宽彻底解决了这个问题,另外这一设计的改变也意味着每一条128bitSSE指令之需要产生一条微操作指令,这样新的设计不但消除了执行矢量操作过多延迟,更少的微指令产生量也等同于提高了译码、分派、调度整个内核前端的等效带宽。无论是输入还是输出,其位宽都比它的前辈们有了成倍的提高,以用来适应每周期的128 bit数据传输。

  当我们把上述重要的改进放在一起的时候,一个英特尔有史以来最为强悍矢量处理怪兽处理器诞生了。英特尔的技术人员如此形容Conroe的强悍能力,一次 128-bit多数据乘法、一次 128-bit多数据加法、一次 128-bit多数据载入、一次 128-bit多数据储存,一次cmpjcc(y一次比较+一次跳转)的宏融合,上述所有操作在同一个周期都可以搞定,这相当于每周期六条指令的执行能力,比起以前的产品有着飞跃成长。

提示:试试键盘 “← →” 可以实现快速翻页 

一键看全文

本文导航

相关阅读

每日精选

点击查看更多

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑