AMD未来的移动CPU的进入我们的视野。AMD在2008年将投产专门为移动设计的cpu“Griffin(格里芬)”,并将在2009年投产首款内置了了GPU的“FUSION”移动处理器。5月22/23日召开了的Microprocessor Forum中,AMD的Maurice B. Steinman先生(AMD Fellow, Computing Products Group,
AMD首款移动处理器Griffin 深度解析!(1)
AMD的CPU分化成移动和桌面两个方面
AMD未来的移动CPU的进入我们的视野。AMD在2008年将投产专门为移动设计的cpu“Griffin(格里芬)”,并将在2009年投产首款内置了了GPU的“FUSION”移动处理器。5月22/23日召开了的Microprocessor Forum中,AMD的Maurice B. Steinman先生(AMD Fellow, Computing Products Group, AMD)在会场中接受了采访,并公开Griffin的样品芯片的概要。同时,也谈到了FUSION处理器的研究进程。
Griffin的样品芯片
AMD的Maurice B. Steinman
Griffin是AMD的旗下的双核移动CPU,采用65nm工艺制造,和Rev. G大体相同的CPU内核,新设计的北桥,双通道DDR2存储器接口,HyperTransport 3接口。每个核心具有1MB的专用二级高速缓存,和上星期AMD公开的概要一样,成为AMD第一个的全新设计的移动CPU。与Intel移动CPU和桌面CPU和同样建构合并的对比鲜明,AMD在移动和桌面CPU使用了不同的建构。
上面的照片是Griffin的样品芯片。看这个样品,印模的尺寸(半导体实体的面积)看上去像160平方mm左右。通过下图可以看出,Griffin的die要比AMD的主流cpu的die大一些。去年(2006年),AMD有关人员说“移动处理器(Griffin)die将变小”,不过,实际并不是说CPU变小。譬如,Intel采用65nm工艺的的Core 2 Duo(Merom:哈密瓜) 4MB版的面积为143平方mm。还有,内置了GPU核心的CPU FUSION的最初版本一般认为应该在180平方mm左右。
AMD Die Size(部分推测)
Griffin cpu比计划设计的要大
现在的制造流程工艺下,即使详细的规划,芯片的尺寸也不会线性的变小。因此,Griffin的印模较大不应该感到奇怪。可是,仔细看的话会发现Griffin 印模的特定模块好像扩大了。
这个通过比较Griffin的计划时候和现在的印模(半导体实体)布置图就可以明白。下的图右面是去年6月AMD发表的Griffin的印模布置图。左面是此次发表的Griffin的印模布置图。
Griffin的计划和现在的印模布置的差异
2个布置图的差异很明显。CPU内核的尺寸如果一样的话,那个以外的块的面积增加,印模变得大了一周。总之,从计划时刻到实际期间,印模上的CPU内核以外的组件增大了的。当然,也可能是面罩的变更,或者将来在商业生产时印模的尺寸会减小。同时,这个印模布置图和样品芯片的长宽比也不符合。为此,虽然不一定正确,但也可以作为参考。
再仔细看现在的Griffin的印模的话,首先,2个CPU内核和二级高速缓存之间的部分变大,然后是北桥与存储器,I/O控制器那部分线路的比率变大。北桥周围扩大是芯片尺寸增加的一个原因。
现在CPU的扩大和I/O模块有关
为何Griffin北桥周围扩大了这么多。负责Griffin构建的Maurice B. Steinman先生(AMD Fellow, AMD Computing Products Group)做了以下的解释。
“有几个理由。1个,是因为HyperTransport 3。因为HyperTransport 3的接口的转送速度变得更快使得需要更多的buffering(缓存)。这就需要更加宽的带宽,同时使得缓存面积增大。如果不增加缓存,增加得带宽将不会满负荷运行,总线会成为摆设。相关芯片组的设计也同样的道理。
另一个原因是模块的方法。这个块中有HyperTransport链接控制器,存储器控制器,北桥核心。这些组件的设计风格,为了实现迅速开发多少有些不同,并不按照既定的习惯来做得。为此,在某种程度上,有小区域的缝隙”
为了实现CPU内部连接的高速化,在整个CPU中I/O周围的各个单元所占的面积增加。这个是现在的高性能CPU共同的特征,结果使CPU中CPU内核占的面积比率越发变得小,I/O周围的电路占的面积比率连续不断增加着。理由是现在计算机性能的瓶颈不是计算速度,而是数据传输过程中的各种问题。预计使用CSI技术的Intel的“Nehalem”平台,其I/O周围的比率也增加着。控制I/O周围的电路规模提高性能成功例子是采用了radical Rambus建构的Cell Broadband Engine(Cell B.E.)CPU。
使同时,AMD从Griffin时代开始采用模块化设计,不同的CPU在某种程度能共用组件。尽管模块化设计CPU能提高速度,不过这也会使一些模块中没用的部分聚集在die上面,从而不利于特殊CPU的开发与优化。这个,成为CPU的设计容易性的权衡。
Mobile Optimized Memory Controller
AMD首款移动处理器Griffin 深度解析!(2)
与Barcelona不同的CPU内核电压控制
AMD,采用了用适合服务器&桌面的Barcelona系扩展功能的CPU内核。可是,Griffin却使用与旧的Rev. G平台相当的cpu内核。Steinman先生做了以下说明。
“我们将Griffin的移动性最为最优化的目标。我们考虑因为革新性是有设计上的风险,而对移动的最优化是改进。譬如,北桥周围进行全新设计,花了很多力气在其他方面以实现移动的最优化。因此,CPU内核自己稳定了是最好的。这是设计上的平衡”
尽管CPU内核从Rev. G时代并没有大的变化,不过, Griffin还是可以分别控制两个CPU的电压。按照CPU内核的负荷,不仅可以让核心的时钟频率变动,还可以使电压也变动。为此,Griffin装有适合CPU内核的电压可变的电压平面两个。VDD0对应CPU内核0(二级高速缓存)的电压,VDD1对应CPU内核1(二级高速缓存)。这样可以更有利于抑制电能的消耗。
控制CPU内核电压的变迁, Intel的移动CPU也还没实现。同样的AMD CPU和适合服务器&桌面的新CPU“Barcelona(巴塞罗那)”也不采用。这是因为电压调节方面非常复杂。
“Barcelona全部的CPU内核以同样的电压做工作,不过,各自核心可以用不同的频率工作。北桥与CPU内核具有不同的电压平面”,Steinman先生同时说明。
关于Barcelona系统,是今年2月的ISSCC(IEEE International Solid-State Circuits Conference)明确电力供给系统的架构。单个VDDCORE的电压平面设定Barcelona的4个CPU内核电压。为此,4个CPU内核全都以相同的电压工作。
Griffin和Barcelona内核中都有NDDNB电压平面,以此来控制分离的北桥模块(Barcelona的L3缓存也是通过NDDNB控制)。为此,在CPU内核降低全部电压进入到睡眠模式的情况下,当有外部对象像GPU核心等有向共享存储器发出访问要求的时候,只有北桥可以做出响应。AMD建构里面CPU和存储器是相连的。为此,信息只能通过集成显示芯片组中的显存才可以进入CPU,这样功耗就增大了。
还有,Griffin/Barcelona中有4个系统电压平面控制电压固定了的模拟系统和I/O。HyperTransport链接由VLDT 1.2v供给, VDDIO和VTT供给DDR2 I/O,4个2.5v 的VDDA供给on-die PLL 。
Dynamic Performance Scaling Capabilities
Power-optimized HyperTransport 3
Voltage Planes and Control
DRAM控制器也更新
AMD在Barcelona系统中采用了DDR2-1066。AMD意在加快DDR2的速度和延长DDR2的寿命,而Intel正在推进向DDR3的转变。为此,AMD向JEDEC(美国的电子工业会EIA下属组织,半导体的标准化团体)提出DDR2-1066标准。Intel是在4月的Intel Developer Forum(IDF)提出DDR3可以有效的节能,强调其在移动领域中的作用。同时,IDF的DRAM售卖者提出了DDR2-1066的许多困难,与之对抗。
对于AMD,作为2008年的CPU的Griffin也继续使用DDR2。据说DDR3没有人支持,因为DDR3的渗透现在有点超前。“本公司内部的专家正在估计着什么时候向DDR3的转移。我们有着18个月到前为止的预见,而且基于此判断DDR3的转换”,Steinman先生说到。
因为实际DDR3渗透推延的可能性相当高,AMD这个判断可能较为妥当。
就像支持的存储器dual channelDDR2那样, Griffin提高了内存读取的效率。因为就像是Barcelona系统那样,包括2个可以独立工作的DRAM控制器。当两个或多个CPU内核并行发起多个线程的话,对不同的内存区域进行的不同的访问模式增加。因此,当DRAM控制器效率高的时候,就比较容易获得高性能。Steinman先生作了下面的说明。
“Griffin的操作速率具有两种模式(DRAM控制器)。一种是2个存储器控制器独立工作的方式。这样可以并行访问存储器系统,更加有效地实现内存存储。再一个方式就是2个存储器控制器一起工作的方式。”
同时,Griffin提供了硬件DRAM 预取器,从存储器前头读取必要的数据。预取的强化和Intel的Core MA相同。
“由于从存储器预先取出数据,实际上存储读取的等待时间为零。这个将大幅度的提高性能。
DRAM预取器可以跟踪8个独立的不同的数据流。这样他可以和不同的I/O子系统形成一个访问模式,因此各个核心可以执行不同的线程。数据流的预取器可以对应正向的为+1/+2/+3间隔,或是减方向-1/-2/-3。
通过监视访问计数器可以知道各个数据流是否与访问模式相符。如果计数器模式符合,并且数据超过某阈值的话,将生成一个预取请求。并且,预取请求比其他事物具有更高的优先级。因为真的必要的事物被投机性(预取)访问调换了的话,将是本末倒置”(Steinman先生)
AMD CPU转向模块化设计
AMD从Barcelona和Griffin开始采用了模块的设计。CPU内核和存储器控制器的将做成模块,可以迅速省力的开发组合各种各样构造的CPU。为此,下一代CPU群将重新设计模块间的接口,制定标准接口以实现组件之间的简易连接。
但是,这样的接口的标准化可能增加企业的投入和降低产品的性能。这相应的在实现SoC(System on a Chip)的接口时会产生问题。AMD怎样处理这个问题。Steinman先生关于那个问题做出以下说明。
“那是重要的点。为此,在内部接口标准化时,进行着在2维的最优化。对于接口,在这接口性能不是很重要。这样的接口是被简化过得,不增加多余的设计。
可是,像处理器核心和北桥之间的接口一样地,特定的接口性能非常重要。高性能接口可能就是复杂的接口。然后,关于这样的接口,简化将降低性能,我们将更多的注意力放在接口的验证和文档的撰写。通过组件水平的验证实现标准,然后在属于整个芯片部分的环境中进行校验。根据这个,能容易改动设计”
总之,像SoC(System on a Chip)型的模块化一样,不是全部接口都设置了标准性,也留有需要性能的部分特殊的接口。但是,要使这样的接口容易使用,必须彻底地进行校验与文档的撰写。
通过65nm制造工艺的Griffin,桌面CPU的制造工艺也将改变。
“Fab(半导体工厂)方面进行适合移动的最优化,门绝缘膜(gate insulation film)一定会改变。”AMD的David Rooney先生(Division Product Manager, Mobile Division, Microprocessor Solutions Sector, AMD)谈到。
Griffin,是相连到作为AMD的下阶段CPU的FUSION。通过观察Griffin的概要,可以看出FUSION的将大体如何发展。AMD怎么产品化FUSION,以及如何实现异种多核(heterogenousmulticore)CPU。我将在下次的MPF中报道AMD的FUSION战略的最新情况。
想知道更多关于移动办公方面的内容请访问移动办公频道。随时随地移动办公让您与工作零距离接触!
如果大家对本文有任何意见或者建议,可以在下面的意见提交区参与讨论。

网友评论