64位启示录

互联网 | 编辑: 2004-11-11 00:00:00 一键看全文

在个人电脑20多年的发展历史上,AMD在与Intel的竞争中似乎从来没有像现在这样占据优势,这一切似乎都要归功于它推出的x86-64系列64位CPU。

回顾经典之作

AMD 64位处理器架构设计的首要目标是提供新一代的性能。体现这种设计思路最明显的例子就是Opteron处理器改变了上一代处理器的流水线设计。流水线前端指令获取与解码逻辑标识被精减,提供从解码器到执行管道调度程序间更大的指令打包程度。为适应这一改变,设计中重新定义了管道分级以保持高度的频率可测量性,结果比第七代微架构多出两个管道分级,最终产品拥有12级整数运算流水线和17级浮点运算流水线。在延长流水线得到频率提升的同时,考虑到处理器架构的扩展性,Opteron处理器最初将采用0.13微米的SOI(Silicon on Insulator,绝缘硅)工艺进行生产。随着低于0.10微米工艺的采用,频率也会实现相应的提升。最终决定Opteron性能提升的关键因素是Opteron微架构比以前的微架构具有更高的IPC(每时钟执行指令数)值。

同时,AMD的64位处理器还集成了内存控制器,这在传统上是由北桥完成的,也就是说传统上北桥是处理器和内存之间的“中转站”,北桥通过内存总线驱动内存读写,再通过处理器总线也就是前端总线(FSB,Front Side Bus)将数据转发给CPU。这种机制在增强处理器兼容性和降低设计难度的同时必然带来了效率低和带宽限制。在处理器微架构性能提升方面,如何在降低访问延迟的同时提供给处理器内核足够的内存带宽,成为性能提升的最大瓶颈之一。在AMD的新处理器中驱动内存的工作直接由处理器接管了,也就是说,这种处理器不再有传统上的前端总线的概念,当然也就没有因此而来的带宽限制。Opteron微架构集成了一个双通道的DDR控制器,该控制器拥有能够支持多达8个DDR DIMM(每通道4个)的128位接口。内存控制器最初的设计是使用非缓冲或注册型(registered) DIMM来支持PC1600、PC2100和PC2700 DDR内存。以PC2700为例,这种条件下处理器的有效带宽可高达5.3GB/s。这一直接连接方式能够显著降低处理器的内存延迟,并且随着处理器频率的提升内存延迟会进一步降低。此外,还能使硬件与软件预取具有更高的带宽利用率,从而达到进一步降低处理器有效内存延迟的目标。集成在Opteron处理器内的内存控制器在多处理器系统中有更加惊人的表现。运用并行连接方式的多处理器,每个都拥有自己的有效内存带宽,随着处理器数目的递增,使系统性能具有良好的扩展性。在一个4路处理器的多处理系统中,系统能够支持多达32个DIMM,在使用PC2700内存时可以提供高达21.3GB/s的系统有效带宽,真是惊人!!

与此同时,还有AMD大名鼎鼎的HyperTransport(超传输)技术,HyperTranport技术为嵌入式应用提供了高性能的数据传输方案。通过HyperTransport技术,电脑内部芯片(网络和通讯设备之间的通讯)传输带宽最多可以达到现有技术标准的40倍。而且HyperTransport的特别设计还可应用于0.13微米级芯片技术。HyperTransport的目的并不是取代其它的I/O技术,它只是提供了一种高标准基础上的端到端内部连接标准以满足内存以及I/O原件的数据传输需要,并且可以用于连接传统的低速I/O设备和最新的高速I/O媒介。与把内存控制器集成到处理器内部来提升内存带宽的方法一样,HyperTransport互连控制器也被集成到Opteron处理器内部,在处理器和I/O子系统之间提供了拓展性极强的数据连接带宽。在Opteron处理器内部的数据通道为双向16位的通讯,可以达到1600MT/s(每秒百万次传送)的工作效率,可提供双向为6.4GB/s的带宽。在Socket 754/940时代,AMD 64位系列处理器支持的HyperTransport频率仅仅为800MHz,而在最新的Socket 939系列处理器上,支持的HyperTransport频率已经达到1000MHz,这也就是为什么高端的Socket 939处理器比同频同规格的Socket 940处理器性能要有一定程度提高的原因。在这种全新的架构中,HyperTransport总线的频率通常为传统内存总线频率的数倍,所以能够提供的带宽也就非常高。这样以来,Athlon 64处理器在内存带宽方面就摆脱了天生的缺憾,从而能够有利于进一步的提高整体系统的性能。HyperTransport频率从最低的600MHz到最高的1000MHz,能够提供最高到8GB/s的带宽。

针对大工作负荷的TLB子系统与增强型分支预测功能,Opteron微架构的TLB和前几代AMD处理器微架构相比,除了具有更大的TLB入口规模,及随之带来的更少的延迟之外,还带有无须软件干预的多进程过滤器来共享TLB。Opteron处理器的分支预测功能的增强使性能得到很大的提升,在较大的工作负荷下性能提升尤其明显。它主要是通过把全局历史计数器中的双峰计数器的数量增至16K(这等同于第七代微架构的4倍)得以实现。

在对32位x86-32指令集的增强方面,Opteron处理器微架构能支持全部32位x86标准架构的增强指令,包括Intel MMX和AMD的专业3DNow! 技术(整合了增强型3DNow!技术和SSE)。另外,AMD Opteron处理器还引入了对SSE2指令的支持。
 

提示:试试键盘 “← →” 可以实现快速翻页 

一键看全文

本文导航

相关阅读

每日精选

点击查看更多

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑