自2007年之后,显卡两大厂商ATI和NVIDIA在GPGPU领域的应用的开发上进入了新阶段的争夺,NVIDIA方面开始向ATI的传统优势领域发起反击,经历了R600世代的挫折在GPGPU应用领域受到延误的AMD如今决心不再让这种状况继续下去。2008年12月,AMD正式宣布了在ATI 催化剂驱动8.12版本
融聚未来 AMD Stream加速技术实战介绍
Fusion前导:AMD Stream通用加速技术
马上就要过年了,有一个来自AMD的好消息赶在年前出现在我们面前,让我们的这个新年后将发生的一切格外期待。
如果您是玩显卡的老用户了,您可能还记得,在2005年,ATI显卡凭借出色的R580芯片的设计的ATI Radeon X1900显卡第一次将GPU应用于通用计算领域,开辟了GPGPU应用的先例。
ATI Radeon X1900显卡开创了GPGPU应用的先河 |
自2007年之后,显卡两大厂商ATI和NVIDIA在GPGPU领域的应用的开发上进入了新阶段的争夺,NVIDIA方面开始向ATI的传统优势领域发起反击,经历了R600世代的挫折在GPGPU应用领域受到延误的AMD如今决心不再让这种状况继续下去。2008年12月,AMD正式宣布了在ATI 催化剂驱动8.12版本中正式将AMD Stream流处理通用加速技术纳入其中,正式成为ATI民用显卡功能的重要组成部分。同时AMD方面也针对GPU的软件开发,坚决支持由苹果发起的开放性计算Open CL标准的制定,在ATI Stream SDK 2.0当中将完全支持OpenCL,并积极帮助客户从Brook+过渡到OpenCL,并且在同时保持与微软公司的密切合作,正如Open GL与Direct X这对老对手一样,09年GPGPU界还可能迎来另外一个重要人物:DirectX 11。
本月初,AMD正式发布了由AMD Phenom II处理器领衔组建的AMD Dragon“龙”平台,这套平台具备的强劲性能和优秀的成本控制,因此也成为AMD在2009年投下的第一颗重磅炸弹。于此同时,伴随着这套完整的AMD平台,AMD平台化战略中蕴含的强大计算能力得到释放也成为可能,尤其是ATI Radeon HD4000系列显卡所具备的强大计算能力。随着AMD Stream流处理通用加速技术被整合入ATI 催化剂驱动中,越来越多针对AMD GPU设计的应用程序也将在2009年逐步浮现。而今天,我们首先给网友们带来的就是一款由美国宏软公司使用AMD Stream流处理通用加速技术开发的第三方软件:ArcSoft TotalMedia Theater,在这款软件中ArcSoft公司加入了一个令人惊奇的新项目,得益于ATI显卡强大的计算能力,ArcSoft通过特殊的视频像素插值计算,将标准清晰度的视频信号渲染输出为高清画质视频效果,由于这一过程的运算量需求相当大,以至于普通的CPU难以胜任,如今将其应用在ATI显卡强大的计算能力之上,显得游刃有余。AMD Fusion 融合战略的步伐开始迈出。
Stream技术的基石:RV770核心的强大计算能力
ATI GPU的SIMD架构,为流处理技术打下基础:
2008年的6月20日,ATI正式发布了最新一代的Radeon HD 4850产品,这款产品发布的同时,也为大家带来了一款浮点运算能力达到万亿次的产品。之所以HD4850的浮点运算能力能够达到万亿次级别,这主要还是因为ATI在核心架构的设计上一直保留着SIMD的设计思路,虽然在遇到分支预测时,SIMD的效率会降低,但是SIMD的浮点运算的优势确实非常大的。
在HD2000系列产品中,我们就已经知道ATI采用的4D+1D的SIMD设计能带来极强的浮点运算性能,甚至低端的HD2400的浮点运算性能都要比两颗四核CPU并行运算的浮点运算性能还要高。而RV770在基本保持R6XX架构的设计思路上,大量的增加了流处理器数量,这使得RV770的浮点运算能力又得到了飞跃式的提高。
我们来举一个例子:RV770核心的又有800个联合流处理单元,也就是说每个流处理单元每个周期可以同时执行两个命令数,将流处理单元的数量与每个流处理器同时执行的命令数相乘再乘以流处理器运行的频率,也就是说800x2x625MHz=1T Flops。可以看到,RV770依靠其800个流处理器的性能,可以达到惊人的万亿次的浮动运算能力。强大的浮点运算的性能在GPGPU(通用目的计算的GPU)上发挥很大的作用。尤其在依赖密集计算的科学运算领域,GPU依靠超强的浮点运算性能将大大超越CPU的运算速度。
AMD Stream通用加速:开放性标准更有发展前途
相对NVIDIA的CUDA技术而言,AMD采用的Stream技术是一项开放性的技术。实际上,最初ATI采用的流处理技术并非完全开放,而是仅针对单一的一个项目而研发的。在2006年,ATI就曾经借助非统一架构设计的Radeon X1900XTX显卡为斯坦福大学的Folding@Home (蛋白质折叠的分布计算项目)项目进行科学计算。而此次全新的流处理技术的改进就是要将这一技术全面开放,能够让更多的开发人员参与进来,借助HD4000系列显卡超强的浮点运算能力,为更多的并行计算应用进行加速。
为何要将这一技术完全开放?我们可以回顾一下,历史上很对不开放的相关技术都是一些怎样的后果。这其中大家最熟悉的应该就是早年3dfx公司的Glide图形技术接口和Rambus这两项技术了,由于技术的封闭性,让不少厂家望而却步,最终走向了没落的道路。AMD方面则直接基于OpenCL这一开放性标准,因此势必会得到更多厂商的技术支持。从上面的表格当中我们可以看到,基于Khronos团体定制的OpenCL标准确实得到了不少厂商的认可,包括有AMD、Intel、IBM、APPLE等厂商,这其中甚至还包括了ATI的老对手NVIDIA。因此,我们也不难看出开放性标准对于一个厂商的重要性是非常有分量的。
当然,AMD也并非仅仅支持OpenCL一种API接口,同时AMD自有的Brook+、更多的高级编程语言编程工具、高级编程语言编译器、特定应用程序库以及业界的OpenGL、DirectX等技术均能够得到支持。更多的开发方式的支持,得到的结果只有一个,那就是让编程人员有更多的选择,从而可以从自己熟悉的方式来对显卡的更多潜能进行开发。
除了提供更多的开发环境以外,ATI还未开发人员提供了一整套开发方案,并且为开发人员提供免费的、开放的编程工具套件,以增强开发人员的积极性。另外,ATI开放性的举动也将会增加开发人员的灵活性以及赋予开发者自由编程的能力。根据ATI的消息表示,ATI能够让开发人员仅进行一次程序语言的编写,通过内部的代码识别以及转换就可以轻松的让这些程序语言运行在显卡上,而无需开发人员的二次编写更甚至从新编写程序,这一点无疑也大幅度降低了开发人员的开发难度,对于我们普通用户而言最直接的好处就是我们能够在更短的时间内看到采用流处理技术的应用程序。
未来Stream更新情况
根据我们目前的得到的消息来看,Brook+开发工具有效地提供了一个高级别访问GPU的途径,类似NV的CUDA技术。此外,ATI还有望提供从Brook+过渡到OpenCL的简单工具,不过具体细节目前尚不清楚。另外,ATI并非会抛弃Brook+开发环境,并且在未来1.3版本的Stream SDK当中,Brook+彻底重写以提升性能,这将让更多用户体验更高性能的Brook+。并且1.3版还会增加对FireStream 9270、Radeon HD 4600、4550、4350显卡的支持。
在09年第一季度,ATI会继续更新Stream SDK到1.4版,新的版本会进一步加大软件开发者的编程控制和易用性。另外对Brook+也将会增加更多的功能。硬件支持方面会增加目前ATI的家用顶级产品Radeon HD 4870 X2以及FirePro 3D系列的V3750、V7750、V7770等众多显卡。另外我们得到消息,在ATI Stream SDK 2.0当中将完全支持OpenCL,并积极帮助客户从Brook+过渡到OpenCL。
除了支持开放性标准OpenCL等特征外,ATI还在积极与微软公司进行合作。ATI将会借助微软的DirectX图形接口实现除了三维图形游戏以外的更多应用,例如在微软的Windows 7当中,将会利用显卡的更多性能,借助DirectX11应用程序接口支持ATI的Stream技术,让软件开发者有能力利用这一技术,是消费者体验朝野视觉渲染以外的机会。
AMD Stream通用加速技术的更多民用应用
第一个令我们接触到AMD Stream技术应用的软件便是这款免费的驱动附属工具,ATI Avivo视频转换器,这款软件的转换速度无人能出其右,但也存在部分缺点,如果您对这款免费软件还不是很看中的话,那么下面的软件,您不可能没有接触过。
以Adobe公司的Photoshop4为例,在发布之前,市场中广为流传的所谓“针对某一厂商显卡的GPU处理能力独家设计”已被证明是谣言,作为广受欢迎和尊敬的软件商,其设计的覆盖面极广的应用软件,不可能将许多应用广泛的软件项目只针对部分硬件产品而设计,将另外一部分硬件产品的用户排斥在外,这是很浅显的道理。但依然有少数厂商在Photoshop4发布前大肆进行误导性宣传,试图将其伪装成针对独家标准设计的专属软件。而Adobe 新版本Photoshop4以基于Open GL开放标准,支持大多数主流显卡进行旋转、缩放的GPU加速,为这种误导性宣传划上了重重的句号。
用户们需要的是有价值的应用,而不是误导性的宣传。Adobe公司的Photoshop4也只是AMD的Stream流处理加速技术应用的一部分,Acrobat Reader、Flash10等等在其后都将加入针对AMD GPU加速能力的设计,甚至在这些我们熟悉的名字之外,还有些更为我们熟知的应用也在于AMD Stream流处理加速技术有着紧密的联系。诸如Windows操作系统、Expression视频编码器、PowerPoint.......相信在2009年,这些已经为我们所熟悉的软件将为我们带来许多惊喜。
而在当前的这个季度,我们将迎来的是CyberLink公司的PowerDirector 7(威力导演7),PowerDirector同样拥有ATI的Avivo视频转换器的全部功能,并且PowerDirector实际上就是采用了AMD提供的核心AVT库,并且对ATI Radeon产品采用AVIVO视频编码器来执行转码的工作。在编码完全一样的输入内容和输出目标情况下,CyberlinkPowerDirector的性能和类似软件的性能没有不同。但是,Cyberlink的PowerDirector还有其他优势,如支持更多的视频文件存放器,支持多流转换等多种功能,Cyberlink的PowerDirector的所有功能都打包在一个完整视频编辑环境当中。
测试平台组建
AMD的Stream流处理加速技术的重点在于显卡,那么是不是GPU加速一定需要高端的显卡呢?答案是:非也。我们选用的这块显卡是来自于七彩虹科技的镭风4830-GD3 冰封骑士,内置ATI RV770LE核心,核心规格为640个联合流处理单元(请注意,ATI显卡的流处理单元设计较为特殊,不能与同类显卡简单的进行数量对比,更没有所谓标准的流处理器换算方式,请玩家们面对类似的“忽悠”时能够保持警惕),浮点处理器能力为740GFLOPS,目前市场售价在699~799元之间。
处理器方面,我们选择了来自AMD的Phenom X4 9850四核处理器和Athlon X2 4850e 45W节能版双核心处理器,以在CPU软解码和GPU硬加速过程中进行对比。
主板方面,我们选用了来自微星科技的,基于AMD 790GX芯片组的:DKA790GX Platinum ,
电源方面,我们选用来自酷冷至尊的UCP1100W,额定功率1100W,足以对付我们的测试需求(当然,这套AMD平台的实际需求很低,纯属杀鸡用牛刀......)。
散热器,我们选用了来自的TT的BigTyp 14Pro。
显示器方面,我们选用来自明基科技的G2400W,24寸显示器。
在此我们感谢为我们提供测试平台中部分组件的PCHOME金牌合作伙伴:威刚和明基和TT。
Stream加速实战测试:ArcSoft SimHD转换
现在我们展示的这款ArcSoft TotalMedia Theater软件依然属于测试版,版本号为2.1.0.216。
这款软件体现的最明显的地方在于其与AMD紧密的合作,AMD的Stream流处理加速技术应用是其开发的重点。其中的Sim HD技术,就是AMD的Stream流处理加速技术的典型应用,如果使用最上方的普通的硬件加速选项,则对于标清画质输出与正常方式没有什么不同,但如果使用了Sim HD技术,则输出的画质会获得明显的提升。
Sim HD视频效果方面,我们现场拍摄了一些照片进行对比,ArcSoft Sim HD模式中专门提供了对比模式方便用户进行实际对比,在左右两侧均以标清和高清显示同样的视频画面,但画质却有着明显的不同。
Sim HD画质的渲染可以使用下方的AMD Stream技术调用AMD GPU的强大处理能力也可以使用传统的CPU软解码实现,但是如果使用CPU软解码方式,庞大的运算量会使CPU难以承受,即使是AMD的高端四核心处理器,也会维持在75%~85%的负载,并且画面也会出现明显的停顿。根据我们的测试如果是双核心处理器,即使频率在3G以上,也根本无法承受这样庞大运算量的压力,视频画面已经基本没有可观赏性。
平均75%以上的占用率,并且画面有严重的停顿 |
单纯使用CPU处理的话,GPU负载为0 |
如果开启了AMD Stream技术,则情况变得明显不同。我们下面开启AMD Stream加速技术。可以看到,此时处理器的占用明显降低,维持在35%左右,而GPU的占用率则同样维持在35%,这对于一些怀疑AMD的CPU+GPU解决方案真是效果的人来说,是一个很清晰的回答,如果说作为免费赠送的ATI AVIVO视频编码加速工具还有着这样或者那样的缺点,那么包括ArcSoft TotalMedia Theater软件在内的许多第三方软件也将在09年第一季度与用户们面世,到那时再来给AMD的加速解决方案下评论也不迟。
此时GPU负载稳定在35% |
开启了AMD Stream通用加速技术,即使是双核处理器,占用率也仅为30%以下 |
AMD Stream通用加速技术的企业应用及展望
除了AMD在民用显卡领域所取得的进展外,在企业用户方面,AMD也在逐步的推广早前制定的发展方案。接下来我们再来看看面对企业级别的用户,Stream流处理技术还会为我们带来哪些特色。
首先,使用流处理技术,能够大幅度缩小服务器的体积,同时保证服务器运行的高效率;
第二,体积的大幅缩也会带来功耗的大幅下降;
第三,能够让服务器的整体成本大幅度下降;
第四,能够支持双精度的浮点运算能力,这与ATI显卡的前卫性设计思路是分不开的,相比竞争对手的产品,ATI显卡能提供的双精度浮点运算能力远远胜出。
对于企业级的用户来说,AMD自然也有相应的产品解决方案,而不可能让企业级用户使用那些普通家用级产品,毕竟针对企业用户来说,稳定性以及可靠性才是最重要的。AMD推出的FireStream系列产品就是专门针对企业级用户的解决方案,目前FireStream系列已经有两款产品亮相了,一款产品为FireStream9250:采用1GB GDDR3显存容量、单插槽设计、90W功耗、单精度浮点运算每秒1TFLOPS、双精度浮点运算每秒200GFLOPS。另一款产品名称为FireStream9270:采用2GB GDDR5显存、双插槽设计、160W功耗、单精度浮点运算每秒1.2TFLOPS、双精度浮点运算每秒240GFLOPS。并且针对企业级用户,还可以组件双卡、四卡或更多显卡的阵列,从而成倍提升显卡的流处理能力,已获得更强劲的性能。另外,AMD还为用户准备了完整的4U解决方案——Aprius运算加速系统。整套系统大小是一个标准的4U服务器机箱,运算能力将会达到单精度浮点运算9.6TFLOPS,双精度浮点运算达到1.9DP TFLOPS,并且整体显存容量将会达到16GB。整套系统一共采用了8块FireStream9270显卡。
在我们了解了Stream技术对于企业级用户的优势以及产品之后,下面我们再来看看Stream技术对于企业当中哪些应用最佳适合。实际上很多基于并行计算架构的运算都能够被流处理技术支持,例如科学研究、电脑辅助工程、财务建模和风险评估、石油煤气勘探、国防、医学成像、影响渲染和专业视讯等领域都能够被流处理技术支持,并且采用流处理技术还能够大幅度的缩减企业开发成本等优势。AMD的Stream技术的推出,将会进一步推动并行计算在PC领域的应用。并且,AMD公司的这一技术还将会结合CPU与GPU的所长,让两者无缝衔接,从而得到更好、更强静的性能表现。
就在本文结束前,我们又获得了来自AMD的信息,在CES 2009大会上,AMD总裁德克·梅尔(DirkMeyer)宣布,AMD计划在年底使用超过1000块Radeon HD 4870显卡和Phenom II处理器来组建一部超级计算机: Fusion Render Cloud 建立AMD Fusion云计算中心,它将带来每秒钟1千万亿次(petaflop)的浮点运算能力和100万个线程处理能力 ,提供给游戏和云计算用户。 AMD计划在年底使用超过1000块Radeon HD 4870显卡来组建一部超级计算机: Fusion Render Cloud ,它将带来每秒钟1千万亿次(petaflop)的浮点运算能力和100万个线程处理能力,运用于云计算领域,还将给游戏玩家和3D动画工作人员带来强劲的在线服务。它可以通过Internet “cloud”向各类移动设备传送游戏,PC软件,和其他程序。游戏开发者还可以使用这个超级计算机来开发游戏,它将采用 OTOY的软件,可以通过网络媒体流和压缩数据向浏览器传递3D图像。它将成为世界上图形运算能力最强的超级计算机。如果这一计划得以顺利实施,则无疑是AMD Fusion战略进展的重要步骤,也是AMD Stream技术的一次成功应用案例。
2009年开始,在危机的催生下,云计算将改变世界。
网友评论