发布在即 CONROE架构详介及产品体验

互联网 | 编辑: 2006-07-24 00:00:00转载 返回原文

英特尔酷睿微架构产品发布日期一天天地临近,我们犹如感受到了五月天那样扑面而来的热浪。凤凰涅磐,六年的蛰伏,量的积累终于带来了一次质的飞跃。基于英特尔新一代微架构的产品势必将掀起台式机、服务器和笔记本产品的革新。

发布在即 CONROE架构详介及产品体验(1)

英特尔酷睿微架构产品发布日期一天天地临近,我们犹如感受到了五月天那样扑面而来的热浪。凤凰涅磐,六年的蛰伏,量的积累终于带来了一次质的飞跃。基于英特尔新一代微架构的产品势必将掀起台式机、服务器和笔记本产品的革新。我们所使用的平台不仅性能更高,能耗也将进一步降低,外型设计上也可有全新的突破。这就意味着今后的日常生活及办公活动中所采用的产品有着超静音、低功耗、外型时尚等特点。浅显地讲,以上这是就是我们以后即将面临地变化。

  本文上篇详细阐述英特尔reg;酷睿™微架构所采用的全新技术,五大技术优势将一一说明。下篇将带领大家一同走进酷睿™产品体验的现场,配以分析说明,解读酷睿实力如此之强的原因所在。

 


  6月上旬酷睿™产品正式发布,此文旨在帮助读者朋友们对这一新的架构有一个全面的认识,以解除困惑和消除一些认识上的误区。笔者有幸亲身体验了下一代的全新架构的超强威力,将陪同读者朋友一起审视这一全新架构以及预测未来市场和业界的变化。

  在过去的英特尔技术峰会上,英特尔高级院士兼首席技术官 Justin Rattner 曾指出,英特尔reg; 酷睿™ 微架构是使英特尔reg; 酷睿™ 双核处理器具备更佳节能效果的基石。

  而英特尔高级副总裁兼数字企业事业部总经理基辛格则表示:“对英特尔而言,2006 年将是一个转折点——转向新的制程工艺和新的微处理器架构,并推出新的平台,以帮助客户解决其所面临的棘手问题。我们将陆续推出一系列企业平台和技术,为开发人员提供更多可能,并带来令人兴奋的关键能力,以帮助 IT 管理人员更有效管理成本和运营业务。”

  在开始非常体验之旅前,请熟记“双核心、大容量共享式二级缓存、1066MHz前端总线、双通道DDR2-800内存、EM64T”等名词,我们的非常感受,即来源于这些先进技术和规格!

发布在即 CONROE架构详介及产品体验(2)

上篇 技术篇_CONROE微体系架构详介

第一章 英特尔微体系架构历史及与竞争对手的关系

  一、英特尔微体系架构历史

  英特尔reg;酷睿™是英特尔下一代的微架构,这也是自千禧年之后英特尔的首款全新架构。其正式名称为:英特尔reg; 酷睿™ 微架构。这一设计方案将是未来包括代号为 Merom(用于笔记本电脑)、Conroe(用于台式机)与 Woodcrest(用于服务器)在内的众多多核处理器发展的基础。

 


  2000年英特尔正式推出Pentium 4产品,它基于NetBurst架构,标志着NetBurst架构的开始,一直延续到Pentium M,这一架构仍顽强地发挥着它的作用。时至今年,2006年这一架构已足足走过了6个春秋。在计算机及微电子技术发展日新月异的年代,这样的架构为计算机用户效力如此之久着实不易。

  事实上,寿命长并不能代表它尽善尽美,在当初Pentium 4刚推出的时候颇受争议的一项技术就是为提高主频而采用过多的管道设计,与当时的上一代主流产品Pentium 3比较时根据就体现不出性能优势。英特尔一直在沉默着总结教训,新一代酷睿™架构在NetBurst架构之上,吸取成功经验加入先进的创新技术,围绕推动性能和能耗效率的提高,将平行计算的益处渗透到方方面面。开启了新计算体验的崭新一页。

 


  原计划在第4季度推出的桌面处理器Conroe由于65nm制程开发进程顺利,直接导致这种65nm制程的桌面处理器即将在7月份推出,事实上用于服务器的Woodcrest核心在六月份就将发布,同时推出的还有965系列芯片组,搭配Conroe处理器。965系列芯片组则采用90nm工艺。成文的最后,我们已收到了新架构的准确发布日期。

  


  根据英特尔更新的处理器蓝图显示,Conroe处理器样品工作频率在1.8GHz,但是发布之后的起跳速度可以达到2GHz。另外,Conroe因为采用和Merom移动处理器相同的架构,因此处理器功耗将大大减少,Conroe处理器的待机功耗7瓦,平均功耗65瓦,满足英特尔对性能/瓦的追求。Conroe桌面处理器为1066MHz FSB,4MB二级缓存,双核心,支持VT、EIST省电技术,支持XD安全技术等。

发布在即 CONROE架构详介及产品体验(3)

二、与竞争对手的关系。

  05年年中,迫于 AMD Athlon64 X2双核处理器的压力,英特尔较为匆忙的把两颗处理器内核整合在一款硅片上(Dies In Chip),沿用已历时两年之久的90纳米工艺制造。这就是最初“真假双核”这一说法的由来,这一做法直接导致的结果就是使得一颗双核处理器的核心面积高达206平方毫米,功耗更飙升到了130~165W。核心面积的扩大,也增加了处理器核心芯片的成本,因为同样面积的圆晶硅片,处理器核心面积的减少了,才能切割出更多的处理器芯片,制造成本才能降下来。如果采用新的65纳米制造工艺,产量同时也能更好的提高。

  



  Pentium D产品采用新一代65nm生产工艺的Presler双核处理器,使用了Dies In Chip的方式,简单来说就是在同一个基板上整合两颗独立的处理器,实现更为廉价的双核。这也是目前奔腾D506处理器产品价格如此低廉的原因,直到现在,奔腾D506仍在热销中,成为了当前市场中高性价比的典范。同样采用65nm支持的Conroe处理器,则运用了单硅片设计,在一块的硅片上,整合了两颗完整的处理核心,并通过共享二级缓存,进一步提升处理器的性能。

  人们仍然对过去AMD发动的“我为双核狂——AMD真双核体验风暴”的活动记忆犹新,其实自从双核处理器问世以来,AMD曾在美国、新加坡等地多次邀请英特尔“决战双核”,AMD对英特尔发出过这样的战书:“AMD在美国打广告愿意跟英特尔进行双核决斗,英特尔没有应战。如果英特尔愿意的话,可以考虑通过公正的第三方,让AMD与英特尔在中国进行公开的双核比试。”于是乎,在去年底,AMD在国内北京、上海、广州等城市招募选手进行双核PK,并请几家测评机构做公开测评,最终宣布在双核的首轮大战中以绝对优势击败英特尔。

  这三年来,AMD K8架构几乎一直压得英特尔抬不起头来。竞争的结果导致了进步。

  间隔不久,在IDF上公布的那一场Conroe处理器与AMD 双核速龙™ 64 FX-60处理器可怕较量中,大多数的人震惊了,结果是这样地惨淡,在各项测试得分中,Conroe处理器最高居然可以领先40%,一般也有20%的提升!

  诚然,在64位和双核这两项关键技术上,英特尔均给了AMD太多的机会。在压抑良久之后英特尔爆发了,Conroe的这一强势出场,带给了用户什么,又带给了AMD什么,AMD Soket AM2,可以接得住Conroe的迎头猛击吗?

发布在即 CONROE架构详介及产品体验(4)

第二章 多核计划及微架构水平集合

  一、CONROE出现的背景

  


  从上图蓝(单核)、绿(多核)、红(多核)发展的三个阶段可看出,英特尔的探索可谓曲折。在“当今”那条绿色的虚线之前,大段的蓝色部分意味着英特尔一直在基于NetBurst的架构上“折腾”,Pentium 4是一段时间成熟的产品,但就设计来讲,仍有很多值得商榷的地方。以流水线长短为例,奔腾Northwood和Willamette核心的流水线为20级比前代产品PIII或者Athlon XP的10级左右的流水线来说增长了差不多一倍。发展到目前市场上采用Proscott核心的Pentium D和Celeron流水线更增加到31级。在NetBurst架构中,英特尔将8级指令获取/解码的流水线分离出来,而Proscott核心有两个这样的8级流水线,因此严格说起来,Northwood和Willamette核心有28级流水线,而Proscott有39级流水线,是现在Athlon 64(K8)架构流水线的两倍。

  众所周知,流水线越长,频率提升潜力越大,但是一旦分支预测失败或者缓存不中的话,所耽误的延迟时间越长。这就是它负面的影响。

  酷睿™微架构此时的出现,是非常有必要的,它改进了流水线设计,支持每个内核使用高效的 14 级流水线,在NetBurst流水线内部功能中,每时钟周期能够处理三条指令。英特尔宽位动态执行可以同时获取、分配、执行和返回达4条完整指令。更可以通过微融合将常用的指令融合为单个内部指令以缩短执行时间。

  另外,在对缓存的命中方面,从前的架构也存在着不力的现象。种种不利的形势下,酷睿™微架构浮出了水面。

发布在即 CONROE架构详介及产品体验(5)

二、CONROE的改进

  


  Conroe处理器作为Intel新一代的的双核心处理器,虽然保留了FSB(前端总线)的概念,但核心架构上已经做了相当大的改进。Conroe处理器采用的是共享二级缓存设计,有效的避免了目前SmithField、Presler双核处理器需通过前端总线才能相互访问的瓶颈,直接式L1对L1的资料交换,更是加强了处理器的Pre-fetch和Memory Disambiguation能力,绝对是处理器架构上的一次大革命。

  首先让我们看看Conroe保留了哪些现在Pentium 4架构中的元素。

  第一:双核心架构必然是保留的,种种迹象表明,日后将是双核乃至多核的天下。在酷睿™微架构中,双核心架构中缓存部分会有细微的变化。现在英特尔双核产品是采用独立的二级缓存结构,这样做弊端大,成本也很高。因此在新架构中,两个核心将共享一个4MB的二级缓存。

  第二:Conroe前端总线频率仍为1066MHz。前端总线受到制约的因素有很多,例如芯片组的发展水平或内存发展水平,再加上这并非英特尔急于在新架构中解决的主要问题,因此Intel现在还并不打算提升前端总线的频率。

  第三:新架构仍然将采用乱序执行核心。

  第四:64位扩展也是必不可少的一个方面。

  再来看看新架构与旧的NetBurst架构相比,有了什么样的变化。

  在架构变化中,第一个变化是处理器流水线缩短了。新架构要将控制能耗作为最主要的目标,因此不会将时钟频率提升得太高,不再需要太长的流水线。而且就算是使用较长的流水线,但芯片发热量的问题没有解决之前,频率也不会得到大幅提升,现在的Prescott就是最好的例子。

  第二,但新架构中令人关注的变化是不支持超线程技术。当然现在还不确定是否超线程技术就被英特尔彻底废弃了,但至少第一批基于这一架构的CPU将不支持HT技术。如果深入到超线程技术中探求一番就会发现,只有像NetBurst架构那样多的空闲执行单元,才有条件使用超线程技术,否则为什么Intel不在Pentium M中使用这项技术?现在新架构中仅采用14级流水线,这个深度和Pentium M大致相当,自然没有富余的空闲执行单元用于超线程应用。

  除了采用较低的时钟频率外,英特洋使用了其他的手段来提升性能。第一点:即在新架构中增加处理器并行执行单元,每时钟周期能够支持4个指令。同时执行指令数越多,意味着其处理能力越强,表现出来的性能越高。安腾CPU就是一个很好的例子。第二点:使用乱序执行设计,提升处理器资源利用率。支持乱序执行架构的微处理器能够重新组织其指令流,以最大限度利用其执行资源。除此之外,存储指令的乱序执行还能够提高CACHE命中率并降低CACHE访问的延迟。

  在降低CACHE延迟方面有一个关键技术,称之为:Memory Disambiguation技术,即在存数和取数指令都乱序执行的情况下,保证取数指令都能取回它前面的最近一条对同一地址的存数指令所存的值。比如如果一条取数指令在一条存数指令之后且两条指令的地址相等,但取数指令先访问CACHE,也要保证取数指令取回该存数指令的值。

  又如如果一条取数指令在一条存数指令之前且两条指令的地址相等,但存数指令先访问CACHE,也要保证取数指令取回原来CACHE中的值,而不是存数指令新存的值。这是有风险的。因为你刚刚读的数据可能会在CPU内部的处理过程中发生变化,从而出现错误。但是英特尔称,这个系统非常聪明,可以得到不会发生变化的数据。

发布在即 CONROE架构详介及产品体验(6)

三、CONROE产生的意义

  


  酷睿™微架构到底给我们带来了什么?它为用户提供的最主要还是更好的效能,对台式机的用户而言越高的效能能够降低电费和噪音,甚至不使用风扇或者风扇的噪音降低。当然Conroe高级媒体数字功能的出现,也为用户的游戏图形效能提供更好的体验。

  对于移动用户而言,英特尔酷睿微架构意味着各种小巧的外形、响应迅速的计算性能,以及超长的电池使用时间,拥有世界级的 “移动” 计算能力。体现了英特尔与整个产业如何合作提供诸如无线连接、更长电池使用时间及更加时尚等特性。

  通过提高性能、功效,以及更快的多任务响应处理能力,英特尔reg; 酷睿™ 微架构将显著改善各种环境中的用户体验,无论是在家中,在办公室里,还是在路途中。

  在家中,用户能体验到更高的性能、超静音、美观与低功耗的电脑设计,得到更加完善、便于使用的娱乐系统。对于企业而言,英特尔reg; 酷睿™ 微架构将降低空间与散热要求、以及服务器数据中心的电力要求,并提高客户机和服务器平台的响应速度、生产效率与功效。

  酷睿™微架构总的设计目标为追求更高的每瓦特性能,即每一瓦特能量能够产生多高的性能,再换句话说就是要用尽可能低的能耗换取最高的性能。

  


  此图为移动平台性能对比,与之前的产品相比,Merom将提升大于20%的幅度,而在台式电脑上,Conroe将有大于40%的提升;服务器更是超过了80%幅度的提升!这些强有力的数据,恐怕是最能说明问题了!架构的改变,带来了性能的革命性提升,同时由于65纳秒的工艺,功耗将更低。用户的最终体验将是非比寻常的,例如在后台运行杀毒软件的同时,一边进行着视频文件的压缩,听着音乐,浏览着网页,丝毫不会感到系统的吃力。

发布在即 CONROE架构详介及产品体验(7)

第三章 英特尔酷睿微架构详介

  一、 设计目标:

  酷睿™ 微架构的设计,在于推动性能和能耗功率的提高,为跨越各个细分市场和不同能耗级别处理器的优化提供统一平台;为移动设备、桌面电脑和服务器细分市场提供优化。

  向多核处理进行移植还为许多其它进一步提高性能的微架构创新打开了大门。英特尔reg; 酷睿™ 微架构就是指在提高性能和能效的微架构更新。在这一点上,英特尔reg; 酷睿™ 微架构侧重于增强跨每个平台领域(如台式、服务器和移动)现有和新兴的应用与使用模式。

  


  二、 上一代NetBurst微架构基础之上+创新技术的产物

  该微架构围绕节能理念构建,在英特尔reg; 奔腾reg; M 移动处理器微架构的基础上大幅扩展,吸收了许多新颖、领先的创新技术和已有的英特尔reg; 奔腾reg; 4 处理器技术,如宽数据路径(Wide Data Pathway)和流指令(Streaming Instruction)等。

  三、 全新的英特尔酷睿微架构具有五大突出的特性:

  


英特尔reg; 宽位动态执行(Intelreg; Wide Dynamic Execution)

  在单个时钟周期内提供更多指令,提高执行效率与能效。每个执行内核的位宽更大,支持每个内核使用高效的 14 级流水线,同时完成(最多)4 条完整指令。

英特尔reg; 智能功率特性(Intelreg; Intelligent Power Capability)

  该特性仅在必要时,才向单个逻辑子系统提供电力,由此进一步降低功耗。

英特尔reg; 高级智能高速缓存(Intelreg; Advanced Smart Cache)

  其中包括一个共享的二级高速缓存。该特性通过最大程度地降低内存流量来降低功耗;当其它内核处于闲置状态时,允许一个内核使用整个高级缓存,由此提升性能。

英特尔reg; 智能内存访问(Intelreg; Smart Memory Access)

  该特性可通过隐藏内存延迟来提升系统性能,由此优化内存子系统的数据带宽的使用。

英特尔reg; 高级数字媒体改进(Intelreg; Advanced Digital Media Boost)

  现在,所有 128 位 SSE、SSE2 和 SSE3 指令均能在一个周期内执行,从而将这些广泛应用于多媒体和图形应用中的指令的执行速度提升了1倍。

  以上五大创新技术基于4-wide和14级流水线设计,类似Pentium M的micro-ops fusion技术允许将相类似的编码指令“融合”并一同送往流水线,更高级的macro fusion技术则允许x86指令在编码阶段之前进行“融合”并当作单独一条指令送往流水线。另外,在Core架构中,SSE指令(包括SSE1/SSE2/SSE3)也从原来的64位升级到128位。
 

发布在即 CONROE架构详介及产品体验(8)

⒈英特尔宽位动态执行

  


  通过英特尔酷睿微架构的英特尔宽区动态执行技术,多核处理器中的每个执行内核都更加宽阔。这样每个内核均可以同时获取、分配、执行和返回4条完整的指令。带有4个内核的单枚处理器就可以同时获取、分配、执行和返回16条指令。

  动态执行包含多项技术:数据流分析、预测执行、乱序执行与超标量。

  目前有越来越的处理器的设计方向开始从乱序执行 (OOOE,或者 OOO)转向顺序执行设计,这些设计普遍更多地使用超长指令集,这些设计更依赖于多线程以及对编码器和编辑器的性能。但是酷睿™ 微架构的设计仍旧是坚定的传统乱序执行设计思想的体现,可以说将OOOE设计思想的巅峰之作。总体说来,酷睿™ 微架构是比NetBurst 微架构或者 Yonah 微架构更宽、更多硬件资源以及更大规模的产品。几乎在酷睿™ 微架构流水线上所有的组成部分都被强化设计了:更多的指令解码逻辑单元;更大的乱序指令缓冲空间;更多的保留站入口;更多的指令调度端口;更多的执行硬件;更多的内存缓冲空间等等。简而言之,“尽可能增强所有对性能有益的配置”似乎成了英特尔以色列海法设计团队的研发Core的指导思想。

  在前端,宏融合(acro-fusion)、指令融合(icro-ops fusion)以及强壮分支预测单元(BPU)一起保证执行核心有足够的代码供应量;在后端,大规模扩充的指令窗口确保在每周期供给执行单元足够的指令数量。此外英特尔还解决长期存在于以前设计中的SSE指令处理瓶颈,比起前辈们在SIMD指令处理方面有两到三倍的提高。

  宏融合Macro-fusion

  所谓宏融合即针对译码工作前的X86指令,可以在预解码阶段将相似类型的X86指令进行融合操作,然后将其送入单译码器中产生一条微指令操作。这项操作的对于X86指令的针对性很强,并不是所有的X86都可以进行,比如像compare 和test指令就可以和分支指令相融合译码,只会产生一条微指令操作。在酷睿的四个译码器单元中,每一个单元都有一周期完成一次宏融合到产生微指令的能力,但是总体存在每周期产生一条微操作的总限制。增加微指令融合不但要在预译码部分和译码部分的流水线增加新的硬件设计,同时也要对后端的ALU和分支执行单元进行修改。这些新增加的硬件部分负担会被宏融合带来节省后端硬件开销弥补,因为宏融合在同样的X86指令输入数量下产生更少的微操作指令,最终完成同等工作需要更少的后端硬件开销,从酷睿核心整体来看就是获得每条X86指令最佳的功耗效率,这就是Intel为何努力尽可能的让译码单元获得X86指令和处理器执行的微操作指令的1:1 译码产生率的原因。

  当然,如果说宏融合可以在更少的ROB以及RS后端硬件资源下完成等同甚至更多的工作,那么也意味着该技术的应用为同等或者更宽更强大的后端硬件提供了足够的前端译码能力,总体获得了更大的执行带宽。一个单ALU可以执行一条实际上是两条X86指令融合后的微操作,就好比两条指令同时并行运行,即相同的执行单元数量的前提下获得更强的处理能力。

  微指令融合Micro-ops fusion

  微指令融合是英特尔在Pentium M首次导入的技术,在效果上和前面说到的宏融合类似,都是尽可能的减少微操作指令的生成数量,但是运行原理却是不同。一般情况下,简单译码器接受了通常转化为两条微指令的X86指令后,它就会产成一对相关联的微指令对,通过ROB的单独入口进行追踪。当这个指令对进入保留站,其中每一个成员指令被允许单独调度分配,根据两条指令的并行度决定它们是并行通过两个不同的调度端口,还是连续的从一个调度端口抵达执行单元。最为常见的关联微操作指令就是载入和存储命令,我们可以来看看它们在P6构架上执行的过程,这样更容易理解Core的微指令融合的不同之处。

  在P6构架上,存储指令被分解成两条微指令,存储地址计算微指令和存储数据微指令。前者负责计算数据存储的地址,它是由P6构架中的地址产生器处理然后将生成地址暂存在存储地址单元等待执行;后者存储数据微指令将数据存入到外部存储数据缓冲区,当存储指令完成,这部分数据就被写入外存即系统内存,这条微指令由P6构架中的存储数据单元执行。因为这样的两条微指令存在固有的并行关系,它们可以通过两个不同的调度端口进入不同的执行单元处理,当数据写入到存储缓冲的同时,存储地址已经计算出来了,两条微指令形成自然而然的并行运行关系。

  而英特尔说明在Pentium M处理器后,上述传统的P6构架的译码单元结构出现了变化。它不再将存储指令译码为两条单独的微指令,而是将它们融合成一条。这条指令以融合状态通过调度端口,直到抵达真正的存储单元后,才被执行核心分别处理。融合的load操作与此类似,采用了串行调度替代了并行调度方式。

  类似于宏融合,微指令融合在更少的入口和硬件开销下让ROB具备更多的微指令调度和提交能力,等同于把Core执行前端译码器、分配器、调度部分的带宽都等效提高了,为每周期处理更多的X86指令提供了前提,也为总体构架性能提升贡献不少。提升前端效率,意味着达到同样处理能力后端可以适当简化,同样可以达到降低处理器功耗的作用。

  为了达到性能和功耗的均衡设计,英特尔花费了大量的晶体管在酷睿™ 微架构的分支预测单元上。为什么如此呢,其实现在的处理器设计中,内存和处理器的距离(以CPU周期衡量)不断增大,花费如此多的晶体管资源在分支预测硬件的构建上因为能获得和这种投入相称的回报。我们知道,如果分支预测没有命中,就会用相对慢得多的速度从主内存中重新取得正确的分支目标;在这个漫长的时间里,在单线程处理器处在空闲状态,浪费执行资源,是没有产出的纯功率消耗。所以优秀的分支预测单元不仅关乎处理器的性能,而且极大提高处理器单位时钟有效性,从而达到节省功耗的作用。

  酷睿™ 微架构本质上仍旧使用了为Pentium M.开发三段式分支预测器,其核心组成部分是一对预测单元,包括一个双峰统计预测单元和一个全局预测单元,它们记录了最近执行过的分支记录信息。这些预测器基于这些过去的执行历史记录决定处理核心前端可能下一步的分支预测结果。如果处理内核前端决定了要执行的分支,那么分支预测器从分支目标缓存中(BTB)取回分支目标代码的地址,然后依照这个新的地址定位取得相应的指令。

发布在即 CONROE架构详介及产品体验(9)

⒉英特尔智能功率特性

  我们迄今为止所讲述的都是有关性能提升的问题,说明酷睿™ 微架构是一个执行效率远高于NetBurst 的设计,但是我们回忆一下是否遗漏Pentium M 血统的一个重要特征呢?对,那就是优秀的功耗控制。所以,在下一代基于Core构架的产品,无论是桌面还是服务器平台,所有的处理器都会享用到Intel以往移动平台处理器的功耗优势。

  不过我们要说的是Conroe在运行过程功耗控制能力甚至超越单纯移动处理器的Pentium M,为此,Intel为处理器配备了不少先进的功率门控制系统。举例来说,处理器可以在运行中关闭用不到的特定逻辑处理单元,在降低功耗和发热的同时保证不影响性能;同样处理器中的总线模块在不需要使用时也可以转换为低功耗状态。

  在过去要实现功率门控制非常困难,因为关闭电源和备份时会需要大量功率,而在回升至全功率是,还要保证系统和子系统的响应性。通过这项被英特洋称为“智能功率能力”的技术,这些不可能完成的任务均得到了满足。

  那么这项英特尔强调每瓦性能的指导思路下的Core微构架最后的效果如何呢。根据会上英特尔提供的资料,即马上到来的基于酷睿™ 微架构的Conroe处理器,在其性能超过目前的Pentium D 950 40%的同时,其功耗却降低了40%。而面向服务器端的Woodcrest相比双核心 2.8GHz Xeon更是提供惊人了80%的提升和35%能耗降低,这的确是一个值得炫耀的跨越。

发布在即 CONROE架构详介及产品体验(10)

⒊英特尔高级智能高速缓存

  



  在缓存结构上,酷睿微架构仍旧延续了Yonah的共享式二级缓存设计,被称为高级智能高速缓存。我们要了解该设计的优势之前,需要明确目前多数的多核心产品均不能在执行内核之间共享二级高速缓存。这意味着当两个执行内核需要同样的数据时,每个内核均得将数据存储在自身的二级高速缓存上。而且每当一个内核运算改变自己二级缓存的数据时,必须通过FSB和另外一个二级缓存交换变化数据,始终保持一致性,这也大大增加了FSB的流量负担。而共享式二级缓存不同,数据仅需存储在每个内核均可访问的同一个地方,能更加充分利用二级缓存资源。

  之所以称为智能,是因为在Conroe的二级缓存上可以让每个内核动态的利用高达100%的可用二级高速缓存。当一个内核只需要较少的二级高速缓存时,其他内核便可以增加其二级缓存的百分比,减少缓存错误提高性能。在实际成品Conroe的4M共享二级缓存起到的作用远大于两个独立2M二级缓存简单相加容量的提高。

  此外,在多线程多任务处理应用中,相关中间数据可以直接通过共享二级缓存在两个内核线程中共享,大大降低了FSB的重复利用。就拿典型的转换视频文件格式来说吧,该应用通常要涉及解码和重新编码两个过程,解码后获得的数据是重新编码的操作数据。传统的独立二级缓存双核心处理器遵循如下的处理方式,解码线程运行的内核获得解码后数据,通过FSB写入内存,然后另一个内核的编码线程再通过FSB从内存读取前面解码获得中间数据,经过编码后再通过FSB写入内存,此间有四种数据流共同占用FSB资源,使得FSB过分拥挤并且增加了很多访存延迟。而Conroe的高级智能共享二级缓存技术允许第一个解码线程直接把中间数据写入到大容量共享二级缓存中,而编码线成直接从这里获得中间数据进行后续工作,如此以来不但原来FSB流量最大的中间数据存取到内存的过程不见了,因为它所增加的访存延迟也没有了,整个过程效率也得到极大的提高。

  之前英特尔和AMD有关“真假双核”的核心争议就是是否存在内核间的直连构架,但是后者直连构架的交换数据正是弥补独立缓存造成的问题,而英特尔如今的共享高级智能二级缓存推出后,相信诸如此类的争论也会销声匿迹了。

发布在即 CONROE架构详介及产品体验(11)

⒋英特尔智能内存访问

  


  传统的乱序执行处理器都存在这样的一个准则,在指令修改某个内存地址内容前必须确定之前指令的对该地址内容的读取都完全执行了,这是乱序执行处理器重新对指令排序必需要遵从的一个重要准则。

  内存混淆发生过程

  当存储和载入对同一个地址产生操作,两条指令就发生了我们所说的“内存混淆”情况,超过97%的内存访存指令实际上都指向了正确单元,这样的操作实际上是无相关性的内存单元进行访问,是理论上的独立指令。但是就是为了剩余这3%的内存混淆情况,P6构架和Pentium 4都使用了偏向保守的访存排序策略:如果读取的地址尚未确定,那么它始终不能提升到储存操作之前,以此来避免后续获得的读取地址和存储地址相同发生的冲突。

  这种做法看起来非常的安全,但是也非常保守,因为绝大多少的载入-存储操作不会发生内存混淆,这种大而化之的处理方法会带来性能的下降。

  英特尔在酷睿™ 微架构中全新加入的内存消歧技术就是用来解决上述问题的。该技术能智能识别内存混淆是否发生,在确认不会发生后,以往在 P6构架和Pentium 4中载入操作不能提前到不明地址存储操作之前的限制就不存在了。这一设计会起到非常明显的性能提升。

  除了内存消歧外,英特尔的智能内存访问还包含增强的预取器。预取器负责提前获得内存的内容,并将其放入处理器的高速缓存中,以备读取。增加从高速缓存而不是内核的装载量将会算短内存延迟并提高性能。为了让数据位于每个执行内核所需要的地方,酷睿™ 微架构为每一个以及高速缓存和二级高速缓存均配置两个预取器。这些预取器同时检测多个数据流和大跨度的存取类型。这样就可以在一级高速缓存中“及时”准备待执行的数据。二级高速缓存的预读器可以分析内核的访问情况,确保二级缓存拥有未来潜在需要数据。

  通过内存消歧和增强型预取器,英特尔最大化的拓展了系统总线带宽和隐藏了内存子系统的延迟,从一定程度上拉近了和对手集成内存控制器的延迟差距。同样,要达到媲美集成内存控制器的效果,共享型高级智能缓存也功不可没。

发布在即 CONROE架构详介及产品体验(12)

⒌英特尔高级数字媒体改进

  对于苹果电脑迷们来说,苹果迁移到Intel平台可能让他们最不放心的就是失去了原有PowerPC处理器上的AltiVec技术, 不过这些用在现在可以放心了,因为酷睿™ 微架构特别改进了它的前辈糟糕的矢量处理能力,也就是常说的单指令多数据(SIMD)性能。

  在上面讲述Conroe执行单元结构的时候提到,128-bit浮点算术运算操作通过 FADD/VFADD 和 FMUL/VFMUL 两条流水线进行,这两个单元是矢量和标量浮点操作兼顾的设计,其中每一个都可以进行浮点和矢量计算器移动操作。

  从获得的信息来看,矢量整数单元连接在 ports 0 和 1上的设计被扩展到 128 bit,这样就顺理成章的具备了单周期完成128bit的矢量整数的能力。我们现在假设它们的构造和PIII类似,一个单元负责 128-bit VALU/shift操作,而另一个负责 128-bit VALU/multiply操作。

  Conroe对提高处理SSE/SSE2/SSE3处理能力的最大改进之一:为所有矢量处理单元提供真正的128-bit 数据通路。

  真正的128-bit矢量处理能力

  当Intel决定为Pentium 产品线加入SIMD扩展指令(SSE),用以获得128-bit 矢量处理能力的时候,其结果并不像程序员或者是最终用户想像的那么完美。 SSE以及它们的继任者 (SSE2 and SSE3) 在P6 和PM(Banias)构架上运行都存在两个设计缺陷:在本身的扩展标准上,SSE的主要缺陷是缺少对三操作数指令的支持,这就让它在执行效率和性能上比起PowerPC上的AltiVec 落了下风。在实施硬件设计上,Intel将128-bit 操作硬生生的塞入P6核心的64-bit 数据通路中也大大限制了128-bit SSE 操作的性能发挥。

  我们知道P6 核心用以传输浮点运算和MMX指令的数据总线只有64bit位宽。这样以来连接SSE执行单元的输入端口也同样只有64bit的位宽了。为了在64-bit SSE 单元上执行128-bit的长指令,P6必须先把这条长指令分解为一对可以在后续周期中可以执行的一对 64-bit 指令。

  在新的Core构架上,英特尔这次终于为我们提供了单周期延迟的128-bit 矢量操作能力。Intel通过将浮点和矢量内部传输总线提升到128bit位宽彻底解决了这个问题,另外这一设计的改变也意味着每一条128bitSSE指令之需要产生一条微操作指令,这样新的设计不但消除了执行矢量操作过多延迟,更少的微指令产生量也等同于提高了译码、分派、调度整个内核前端的等效带宽。无论是输入还是输出,其位宽都比它的前辈们有了成倍的提高,以用来适应每周期的128 bit数据传输。

  当我们把上述重要的改进放在一起的时候,一个英特尔有史以来最为强悍矢量处理怪兽处理器诞生了。英特尔的技术人员如此形容Conroe的强悍能力,一次 128-bit多数据乘法、一次 128-bit多数据加法、一次 128-bit多数据载入、一次 128-bit多数据储存,一次cmpjcc(y一次比较+一次跳转)的宏融合,上述所有操作在同一个周期都可以搞定,这相当于每周期六条指令的执行能力,比起以前的产品有着飞跃成长。

发布在即 CONROE架构详介及产品体验(13)

下篇 现场篇_CONROE双核产品体验

  5月11日,晴空万里,北京远郊的气温比市区稍低些。在长城脚下一家公寓酒店中,由英特尔精兵强将组成的Conroe全球巡回体验团队为来自全国各地的三十多家专业媒体的编辑、记者详细讲述了英特尔reg;酷睿™微体系架构的先进技术,并对重点部分作了细致地研讨,同时会后在现场还进行了实际地评测。

  


酷睿™非常体验平台,配置为:

  CPU:Intel Processor Code name “Conroe” 2.66GHz, 1066 FSB, 4MB L2 cache
  主板:Intel D975XBX Desktop Motherboard
  BIOS:BX97510J.86A.1073.2006.0427.1210
  内存:Dual Channel DS Corsair 8500 1GB(2*512MB) DDRⅡ 800MHz (4-4-4-12)
  显卡:ATi Radeon X1900 Crossfire + X1900XTX PCIe
  显卡驱动:6.3 beta (8.230060131a)
  硬盘:Maxtor Diamond Max 300GB 10 6B300S0 NCQ SATA
  操作系统:Windows XP Professional SP2

 

机箱内部,Conroe CPU采用LGA775封装。


 


  采用全新的65nm工艺制造、双核心设计,核心代号为Conroe,继续沿用LGA775接口,主频为2.13GHz;外频为266MHz,倍频为8×;一级数据缓存为32KBytes,二级缓存为4096KBytes(虽然Conroe E6400为双核处理器,但由于处理器共享二级缓存,因此没有Pentium D系列的每核独占多少二级缓存的说法);1066MHz前端总线,支持MMX、SSE、SSE2、SSE3、SSE4(暂定)多媒体指令集,Conroe处理器还具备了EM64T 64位运算指令集以及Virtualization(虚拟化)技术。

 


  主板采用了Intel 975X,配置了1GB的双通道DDRⅡ 800MHz内存,内存延迟配置为4-4-4;采用ATI的Radeon X1900 XT显示卡组建CrossFire系统。测试的时候,系统没有安装任何其它非测试软件、并且驱动均为最新版本。不过遗憾的是各项测试成绩还不能公布出来,待产品发布之日起,我们会在第一时间发布测试结果,敬请关注eNet网站。

  不过简单地透露一点从最后的结果来看,Conroe处理器在游戏下以及多媒体编码下的表现真的是非常出色, Conroe此处理器领先原Pentium D960超过40%的性能提升绝非虚谈。

 


  在体验完毕,英特尔工程师还进一步强调,今后无论是在做产品还是在出评测报告方面,都应该把用户的体验作为一个主导的因素,从用户使用过程中的感观满意度更能说明一款产品的优劣,不单单是一些枯燥无味的无味的数据。数据应该是专家或相关人员用来参考的,一般用户尽可能地从实践试用的角度出发,给予全面的阐述。事实上,拿移动平台来举例,从第一代的Banias版本,到后来的Dothan,再到现在的Yonah双核心版本,已历三代。从图表可以看出,Pentium M能够在众多困难之间,折中取得一个较好的平衡点实属不易。性能的提升又能保持体积和重量的下降,同时电池的使用时间更长效。这些对于移动用户来讲都是必要的。

发布在即 CONROE架构详介及产品体验(14)

插曲:

  插曲一,体验会中,专家讲到,希望借助这次产品交替的过程,将目前 Celeron D 、 Pentium D 、 Pentium M 等数款不同型号规格的名字重新进行整合,以后移动平台、桌面电脑、服务器将统一以新品牌命名规则让不同的产品结成一个统一的商标,笔者和另一位媒体朋友笑谈:英特尔总算发现这个问题了,从 Pentium III 之后的命名,说实在的,越来越乱,由于新版本推出的时程都不长,所以许多的不同命名就同时出现在市场上,使用者真的是一团混乱,光要买颗 CPU 就搞不清楚版本了。以后就清楚了,在酷睿™微架构基础上,笔记本的CPU命名为Merom,普通台式机CPU以Conroe为代号,服务器处理器则以Woodcrest命名。它们全部具备像Pentium M一样高性能、低功耗的特点,主频的不同则以型号来区别。

  插曲二,会上专家向与会人员公开展示了一个正在运行的四核处理器。会后了解该处理器可能就是代号为 Clovertown 的处理器,专为双路服务器而设计,进一步显示了近期英特尔多核产品家族的领先优势。Clovertown 可与 Bensley 平台插座兼容,预计将于 2007 年初面市。它具备更强大的处理能力,适用于诸如数据库、金融服务和供应链管理等环境中的多线程应用。另外,英特尔还计划于 2007 年初推出面向高端桌面个人电脑的四核处理器,代号为 Kentsfield。

  插曲三,会上英特尔技术专家同时宣布提供一套评测规范并推出了组建低负载、中负载及高负载的易用软件,该软件目前更新版本已为1.5,加入了对中文的支持,在参加会议赠送给与会人员的光盘中包含这套软件,以方便评测人员和技术人员评估并设计未来双核及多核处理器产品,为他们在评测的过程中提供便利。

发布在即 CONROE架构详介及产品体验(15)

展望

 


  英特尔酷睿微架构在性能延展和节能方面具有里程碑式的重大意义。今年晚些时候,英特尔reg; 酷睿™ 微架构将被运用在全新的双核处理器中,2007 年,还将被运用到四核处理器中。我们预计它将提供业界领先的每瓦性能和功能比。运行得更快、更小巧、更安静、更节能、电池使用时间更长的系统将会面世。

  就在去年年中,Apple公司宣布今后的MAC将采用英特尔的处理器,并即时推出第一款Intel Mac产品。当Apple在做出这个决定的时候,更多关注的是英特尔今后的表现,通过这一次的酷睿™表现也再一次证明,Conroe的潜力在目前一段时间内来说是非常大的。

  有消息称,新的Conroe默认FSB为1066MHz,然而可能在将来英特尔还会更新这方面规格,更新的处理器产品的FSB将会采用1333MHz。

  另据台湾一线厂商透露,Intel今日决定于2006年第三季度向对手AMD发出史上最恐布的价格袭击,企图在AMD产能不足的情况下以成本优势打压对手,部份桌面处理器产品减幅超过60%,目的只求把失去的市场占有率抢回来。

  就在两日前,2006年5月23日,AMD发布了全线AM2接口处理器。新处理器将拥有更大的内存带宽,更低的功率消耗……

  各种渠道的新闻均表明,下一轮的市场动荡之激烈,不亚于即将来临的六月之火热,我们消费者大可静观其变,无论最终结局如何演变,获益的将会是每一位消费者。

  在笔者截稿之日起,代号Conroe的新一代桌面处理器Core 2 Duo将于今年7月23日正式发布。而之前针对服务器的Woodcrest将在今年6月19日发布,接着在8月份,英特尔针对移动市场的Merom也会按时出现。

  首先发布的产品为E6700、E6600、E6400以及E6300等四款处理器,稍候会推出E6800XE处理器,而这些处理器的工作频率分别为2.67GHz(4MB缓存,530美元);2.40GHz(4MB缓存,316美元);2.13GHz(2MB缓存,244美元)和1.86GHz(2MB缓存,183美元)。

  写在最后:其实对于一般电脑使用户说,自从CPU频率提升到GHz的阶段以后,计算机的速度已经完全能够胜任许多日常工作,况且CPU的频率的提升也并不是意味着性能的提升。自从2001年发生惊心动魄的频率大战之后,现在已经过了许多年,如今的处理器早已不再以频率提升为主要手段来增加性能,只有当新架构真正进入市场后,才能真正落实到用户切身体验的高度,展开一个以低能耗高性能比的新篇章。对于广大的用户来说,他们更加看中的是技术与功能的和谐与统一。

  注:本文参考文献来源广泛,包括与会赠送的部分资料及《英特尔reg;酷睿™解析白皮书》以及英特尔的官方网站;技术及观点部分摘引了互联网上的若干分析文章,摘引只为传播更多技术为目的,向原作者致以崇高的敬意,并衷心地感谢他们。文中也对网友的不同意见进行了汇总和归类,期待得以更大范围内的关注。
 

想知道更多关于移动办公方面的内容请访问移动办公频道。随时随地移动办公让您与工作零距离接触!

如果大家对本文有任何意见或者建议,可以在下面的意见提交区参与讨论。

返回原文

本文导航

相关阅读

每日精选

点击查看更多

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑