在今天的2006年超级计算机大会上,AMD发布了业界首款专用“流处理器”(Stream Processor),利用名为“Close To Metal”(CTM)的新式硬件界面,可满足高性能计算(HPC)应用的硬件需求,带来强大的浮点运算性能。
听起来这是个崭新的概念,其实正是利用了旗下图形产品部门(原ATi)的Radeon X1900显卡(R580),也就是ATi之前提出的“流计算(通用计算)”概念。流计算来源于“大量并行处理器”,而X1900的48个独立像素处理核心正符合这一需求。
软件开发人员在数年前就发现,GPU不但可以渲染图形,还能处理其他数据,尤其是在严重依赖计算的情况中。BionicFX就率先利用GeForce 6800进行音频处理,斯坦福大学的Folding@Home研究项目也开始利用Radeon X1900实现分布式计算的加速。
当今最强大的超级计算机是IBM的蓝色基因/L,拥有65536个双核心处理器,也就是131072个处理核心,峰值运算性能367TFlops。如果换成AMD来打造这一系统,“流处理器”只需更少数量的处理器就能达到同样的性能,而如果使用同样数量的处理器,则将为系统带来大幅的提速。利用Radeon X1900显卡内蕴藏的巨大性能潜力,理论上只需不到1000个图形处理器就能达到蓝色基因/L的性能水平,因为每个拥有3.84亿晶体管的GPU都能提供至少375GFlops的运算能力。而借助CTM界面,就可以“直接访问(GPU的)原生指令集和内存”,提供8倍于传统3D编程界面的性能。——根据AMD利用Radeon X1900 XTX进行的MatMult测试,基于CTM的性能为96GFlops,而基于OpenGL只有12GFlops。
与普通的X1900显卡相比,流处理器加速卡加入了特殊的电路,配备1GB GDDR3内存,频率1300MHz,内存控制器也经过调整,以优化流计算应用,同时拥有48个激活的像素处理器(每个内置两个算术逻辑单元ALU、两个标量ALU和一个分支执行单元),频率600MHz,功耗165W。考虑到可能会在今后与AMD的协处理平台Torrenza以及HyperTransport总线结合,流处理器加速卡仍然采用了PCI-E x16接口。该平台现在还不支持CrossFire,不过AMD发言人Wil Wills表示,是否提供并行流处理器加速卡取决于服务器厂商。
AMD目前已经开始向销售商出货这种流计算加速设备,并提供企业级全套技术支持服务和三年有限质保。GraphStream Inc.、PANTA Systems、Rackable Systems、Clearspeed等硬件平台供应商都将推出各自的流计算服务器,并有60多家企业和研究机构加入了AMD的这一项目。虽然本质上仍是块X1900显卡,但经过调整后的要价高达2600美元,是普通X1900显卡的5倍多。
AMD的流计算概念现阶段主要面向高性能计算领域,但AMD相信迟早也会走向消费级市场,用于图像和视频加速,尤其是H.264编码。至于相应的流处理软件,AMD希望能在未来2年内看到。
网友评论