AMD的非对称优势 Fusion APU解析

互联网 | 编辑: 陈建强 2011-04-26 23:30:16原创

在移动处理器领域,AMD一直在主动发力。尤其在2010年,AMD推出的第三代移动平台(代号Danube的主流平台和代号Nile的超轻薄平台)凭借CPU+GPU+芯片组全平台协同作战的威力,取得了相当不错的成绩。这也坚定了AMD寻求在移动笔记本市场领域寻求突破,进而逐步建立非对称优势的决心。

Fusion APU的由来

你或许知道双核、四核甚至多核CPU,那你是否了解APUAPU的英文全称为“Accelerated Processing Unit”,意思是加速处理器。这是AMDFusion APU取的一个新名字,代表着它将CPUGPU合二为一,可同时执行串行计算和并行计算,为大量应用提供加速。

                                                AMD终于推出了Fusion APU

APU并不是最近才有的概念。其实早在AMD收购ATI后不久,就大胆地提出了“Fusion”的计划,试图把CPUGPU整合在一起。到2011年初,AMDAPU终于在CES 2011上正式登场亮相。

Fusion APU技术亮点

GPUCPU沟通不再有代沟

虽然英特尔率先推出了整合显卡的Core i5/i3处理器,不过,正如最初的Pentium D双核处理器一样,英特尔这种"CPU+GPU"的设计具有两个独立的芯片,仅仅是两个功能模块的简单叠加,属于一种过渡方案,并非原生的单芯片解决方案。而AMDAPU则是采用更先进的原生方案——CPUGPU内核完全融为一体的单芯片方案,这样让内核之间的数据交换效率更高。

Fusion APU主要由x86架构的CPU核心(最先上市的OntarioZacate APU处理器将基于“Bobcat”架构)、DirectX 11 SIMD引擎阵列、UVD高清视频引擎、数据总线和DDR3内存控制器等几个模块封装在一个核心内构成。CPUGPU各司其职,各自分别拥有独立缓存。CPUGPU通过切换开关互相连接,而整个APU内部的各个组件之间通过HyperTransport总线连接成一个整体。CPUGPU可以直接访问存储器,CPU和内存之间,以及GPU和内存之间均使用交叉开关进行连接,并且CPUGPU可通过共享内存进行数据交换。APU这一设计的最大优势是可以消除现有AMD平台上各部分之间的互连瓶颈。在目前的AMD整合平台上,原本位于北桥芯片的总线控制器和内存控制器都已经集成到CPU内部,但是内存控制器与内存之间的带宽仅有17GB/s左右,北桥与集成显卡之间的带宽更是仅仅只有7GB/s左右,这已成为瓶颈所在。更为严重的是,集成显卡与内存通信时还需要绕道北桥部分,增加了通信延时。AMD APU在将所有这些功能模块全部整合到一块晶片后,将可以提升各组件之间的带宽。APU内部的GPU图形阵列、UVD解码引擎与北桥模块及内存控制器之间的通道高达27GB/s,内存控制器和内存之间的带宽也同样达到了27GB/s。另外,GPU与内存之间也可以直接通信,带宽增加了三倍,大大提高了GPU的执行效率。

更强的整数运算性能

尽管Fusion APU是一个全新的CPUGPU的融合方案,GPU部分将采用与目前AMD Radeon HD 6300M/6250M相同级别的图形核心,除了支持DirectX 11外,还能通过OpenCL支持GPU加速运算。Fusion APU内核架构最大的亮点是引入了全新的“Bobcat”架构。

BobcatAMD全新架构的新一代处理器核心,与Bulldozer一样,Bobcat也将整数运算执行单元和浮点单元分别独立开来,只不过Bobcat内核的整数运算Bulldozer更少。那么,什么是整数运算呢?在这里有必要解释一个Bulldozer架构中所采用的新内核设计理念。

Bulldozer的内核引入了灵活的模块化设计:在现有的设计中,每个物理核心对应单一独占的整数运算单元和128bit浮点运算单元。而在Bulldozer架构中,每个物理核心具有两个整数运算单元和一个共享的256bit的浮点运算单元。同时,这个256bit的浮点运算单元可以根据需要拆分为2128bit的浮点运算单元,供两个整数运算单元搭配使用;或是以1256bit浮点运算单元的模式供某个整数单元独占。这样一个单独的单元被AMD称为核心模块,这也就是Bulldozer所谓“1.5说法的由来。而当多个Bulldozer处理器并联时(这在服务器领域几乎是必然的),两个核心模块组成的便成为了AMD集群多线程技术中的基本单位。而Bobcat处理核心中的核心模块则只包含了一个整数单元和一个浮点,并不支持集群多线程技术,故每两个核心模块才只拥有一个单元。简单来说,在这里被定义为整数计算能力,每两个整数单元等同于一个

AMD为什么要在核心设计中单独增加整数单元的数目?这与AMD的异构计算策略不无关系。简单来说,现有的GPU具有远远强于CPU的浮点计算能力。在AMD提出的GPUCPU协同计算的平台战略下,与其事倍功半地提升CPU的浮点计算能力,不如将浮点计算交与GPU完成。在这种情况下,整数计算能力将成为制约整个平台性能的瓶颈,那么,有意识地提升APU的整数计算能力无疑就是一种必然的选择。

                       

上图左为Bobcat的一个,它的整数单元(INT)只相当于Bulldozer(上图右)的半个

AMDBulldozerBobcat架构通过将两个线程的整数运算独立开来,从而达到了大幅度提升基本应用的性能。需要说明的,尽管在架构上有所缩减,Bobcat架构依然保留了Bulldozer架构的基本规格,比如每个核心配备64KB一级缓存(32KB指令缓存+32KB数据缓存)和512KB二级缓存,并完整支持ISASSE1/2/3SSSE3指令集和虚拟化技术。

支持完整乱序执行指令架构

乱序执行指令架构设计理念并不是一种新的技术,这一设计的目的是借助于处理器乱序执行指令的方式来提高性能。在这种结构下,CPU可以更灵活地安排指令,不必因为等待读取内存信息或是特定的执行资源而浪费时间。这种结构有利有弊,好处是处理器的性能得到提升,而代价则是功耗的增加和核心尺寸的增加。因此,为了控制功耗及核心尺寸以满足成本需求,英特尔在针对上网本市场推出的凌动处理器上又回归到以前的顺序执行指令方式,这也是凌动能够实现超低能耗的秘诀。之前威盛在C3系列到C7系列处理器中也使用类似技术。但这种设计让程序指令只能严格按照既有顺序运行,无法充分发挥硬件资源的效率,从而导致性能低下——凌动处理器的性能差强人意。这就给AMD有了可乘之机!

AMDAPU仍将采用完整乱序执行指令架构,集成了两个解码器,同时只能解码两条指令。虽然这比同一时钟周期K8/K103指令执行能力以及Bulldozer4指令执行能力精简不少,但与采用顺序执行设计的凌动相比,Bobcat仍然可以在指令效能方面占据不少优势。

全新C6节能更省电

从技术本身来说,APUAMD的一次技术革新——通过整合的单芯片,能够完成以往GPUCPU双芯片才能完成的功效外,单芯片设计还将大幅度降低笔记本电脑的内部设计难度,而且能实现更小的能耗和更长的电池续航时间。另一方面,APU还导入了新的C6待机模式。

                     

                                                    Bobcat的架构

处理器的运行模式都被统称为C-statesC0代表处理器正常的运行模式,此时处理器的运行效能是100%。在C0以上的各种模式均属于节电模式,节能模式级别越高,处理器的电路和信号被关掉的部分也就越多。例如,C1状态的耗电量肯定会高于C2状态,当处理器被唤醒时,它也就又回到了C0模式。在AMDC6模式中,处理器几乎完全关闭,二级缓存也被清空并关闭,处理器中只有一小部分缓存保持工作以供随时唤醒。当处理器从C6模式被唤醒的时候,所有的内部单元会从这个静态存储单元内读取配置信息。因此当处理器被唤醒时,它以前所作的工作都不会丢失。在C6模式下,Bobcat内核可以在不足1W的功率下维持工作,此时却可以提供正常工作时90%的性能,采用双核设计的Ontario APUTDP更是只有9W之低。

AMD在移动市场的野心

AMDFusion APU处理器将是一个庞大的家族,在桌面和移动平台都将会推出相应的型号,就目前的竞争态势来看,移动平台显然是重中之重。针对移动平台,AMD进行了非常细致的规划,APU包含两大平台和三条产品线:定位主流市场的“Sabine”平台将采用“Llano”APU,定位超轻薄、入门级主流市场领域的“Brazos”平台则将搭配“Ontario”或者“Zacate”这两款APU

“Sabine”平台主要针对高端和主流笔记本,Llano APU将基于目前的Phenom Ⅱ处理器架构,采用双核或是四核设计。其所采用的DirectX 11图形核心将拥有240个流处理器,并采用新的32nm工艺制造,功耗控制在35W

“Brazos”平台则是针对轻薄型笔记本、入门级主流笔记本、一体机(配Zacate APU)以及高清小本(配Ontario APU)市场。其中采用台积电40nm工艺代工的Zacate APU具有E-240E-350两个型号,分别为单核1.5GHz和双核1.6GHz的规格,图形核心为AMD Radeon HD 6310,具备80个流处理器和500MHz核心频率,能够为用户提供主流高清娱乐体验,有AMD VISION的标识。而Ontario APU则拥有C-30C-50两个型号,规格相比要更低一些,但设计功耗仅有9W,提供高清互联网浏览体验,并搭配新的HD Internet标识。

由于APU采用全新的内核架构设计,因此AMD专为它们推出了配套的Hudson芯片组。它采用单芯片设计,被称为“Fusion Controller Hub”Fusion控制器中心),简称FCH。针对移动平台的Hudson芯片组将分为三种不同版本:Hudson-M1Hudson-M2Hudson-M3,其中第一款对应Brazos平台(Zacate/Ontario APU),后两款则针对Sabine平台(Llano APU)。

Fusion APU能否在移动市场掀起波澜

Fusion APU是一款真正将CPUGPU融合在一起的产品,它的诞生将统治软件业界的x86 CPU与针对现
代负载进行优化的GPU紧密融合在一起,并将两者各自的优势发扬光大。尤其对于移动平台来说,APU的利好是显而易见的,高集成化可大幅度降低笔记本内部设计的难度,并可有效提升其散热效率,降低整机的功耗,提升续航时间。所以APU的出现将会带出一种全新的笔记本内部架构,影响深远,符合更低消耗、更低成本的效果,符合节约、低碳、环保的时代主题。尤其在AMD将其定义为“APU价值和精华的超轻薄笔记本电脑市场上,APU的问世绝对是AMD的一枚重磅炸弹。最低低于1W的功耗设计,以及不到现今产品一半的核心面积实现90%的性能水平。AMD完全有机会在超轻薄市场逐步建立起自己的非对称优势,并最终在其他市场上对英特尔形成挑战。

 

相关阅读

每日精选

点击查看更多

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑