随着TOP500榜单的再次发布,一股HPC热也随着而来,尤其是IBM为美国能源部洛斯阿拉莫斯国家实验室(Los Alamos National Laboratory)开发的新一代超级计算机--Roadrunner的恐怖指标:拥有130536个计算核心,包括12960颗Cell引擎的116640个PPE和SPE核心,以及6948颗双核AMD Opteron处理器,超过1万个InfiniBand和Gb级以太网连接--这也意味着需要用57公里长的光纤网线来连接机架并连接到外部存储。
对于Roadrunner,或是整个TOP500来说,在处理性能上所需要迎接的挑战可谓越来越小,随着刀片服务器、多核处理器以及摒弃了传统总线结构的直连架构的发展,超级计算机的性能上升可谓水到渠成,而得益于多核处理器越来越高的能效比,类似于Roadrunner这样的超级计算机的能效成本也正在稳步降低,但是,这些庞然大物们却面临着另外一个极为棘手的问题:从这些庞然大物中喷涌而来的数据将如何存储?
"可怕"的Roadrunner
正如上面所说,Roadrunner是一个"可怕的怪兽",Roadrunner拥有80TB的内存。它拥有12960个复合的"Cell"处理器(很有意思,Cell原先是为商业视频游戏所做的),以及6948个分布于刀片服务器上的AMD Opteron芯片,而刀片服务器则坐落于288个IBM BladCener机架上,整套架构基于改进型IBM QS22刀片服务器。
该超级计算机坐落于Los Alamos国家实验室,它的速度是过去最大的系统(即将过时的全球500强超级计算机的首位)的两倍。IBM的位于Lawrence Livemore国家实验室的BlueGene/L系统,其理论上的峰值性能为每秒596兆次浮点运算。Roadrunner则是1千兆(1000兆浮点运算,或者说每秒1000万亿次运算)。
考虑到这种规模--更不用说Roadrunner超过50万磅的体重和超过1亿美元的成本--IBM确认道该系统有一个相当适中的外部存储,不过至少是企业级的标准:该系统的建造者计划部署1.5PB的Panasas存储,200个Panasas的ActiveStor 3000存储集群,通过来自Force10的交换机在10Gb/秒以太网上连接这些存储。这个10Gb/秒交换机将和Voltaire的InfiniBand交换机(马上还有更多有关信息)联网。
虽然这种规模很难和JPMorganChase的IT管理者所宣称的14PB存储相比,也很难和其他庞大的SAN(存储局域网)相比,但问题是,对于Roadrunner这种超级计算机来说,其最特别之处莫过于"几乎持续不断的数据传输",由于将被美国军方用来研究核武器--这一点看起来并不是那么值得夸耀,大量的科学计算、工程计算和核爆环境模拟工作,将把这个台全球最快的计算机(或者应该叫做计算机群)的计算量撑的满满当当,而且,这些数据需要源源不断的传送到存储设备上去加以存储,因此,一个强大的存储系统,最好是并行存储系统能够带来最好的存储效率--没有数据会因为传输不出去而堵塞住Roadrunner的I/O。
当然,InfiniBand是不能不说的话题,在Roadrunner中,Voltaire的基于Mellanox芯片的Grid Director 2012交换机满足了这个庞然大物极高的I/O负荷。不过,我们却也在其中发现了以太网的身影,在其介绍中有这样一句话:"The Roadrunner system has 98 terabytes of memory, and is housed in 278 refrigerator-sized, IBM BladeCenter racks occupying 5,200 square feet. Its 10,000 connections - both Infiniband and Gigabit Ethernet -- require 55 miles of fiber optic cable."很明显,在其10000个外部连接中,既有InfiniBand和Gb级以太网。
而联系到另外一些数据,我们或许能够发现一些不同寻常的趋势。
以太网重回高性能计算?
虽然有关InfiniBand越来越受欢迎的说法很盛行,但是在世界最快的计算机领域,这种互联方案还有待打破Gb级以太网的主导地位。在今天发布的半年一度的世界500强超级计算机名单中,InfiniBand只占了120个系统,而去年2007年12月发布的名单中则占121个。
去年的这个时候,InfiniBand看起来要冲击高性能计算(HPC)领域,占据了世界最快计算机系统的127个席位,比起2006年6月超过了三倍。与InfiniBand相反,Gb级以太网在目前的500强名单中占了285个站点,比6个月前的272个和去年这个时候的207个要有所增加。
"很明显,InfiniBand还不能打破Gb以太网的主导地位",位于圣地亚哥超级计算机中心(SDSC)的存储管理员Bryan Banister说,"以太网还是占主导,现在它的延迟率很低,而且FCoE还在兴起"。该中心目前拥有学术界最大的SAN之一。同时,这位经理相信,10Gb以太网也帮助Gb级以太网抵御了来自InfiniBand的挑战。
"以太网的带宽优势在这里--它们现在有10Gb级,这对于大部分的工作负荷来说都够了",他说,"我们有一个非常庞大的10Gb级数据中心,而且我们的主要研究网络,比如TeraGrid,也有10Gb级连接"。
据我们所查阅到的资料,在使用单纯的以太网连接的285台超级计算机中,位居最前列的是第58位的,位于德国的Pyramid Computer公司制造的由艾尔伯特爱因斯坦学会普朗克量子研究所的超级计算机,而除此以外的大部分超级计算机都是由IBM、惠普等提供的基于至强或皓龙处理器的产品,可以说,都是我们耳熟能详的品牌和产品,而如果我们联想到曙光打算推出的"桌面级HPC(或者说个人HPC)",我们能够发现,HPC正在朝着通用化的方向发展,而以太网恰好是一种最为通用的技术,或者说是门槛最低的技术,因此,会有大量的用户喜欢去使用它,尤其是当以太网的表现并不比InfiniBand差的时候。
但是,下结论或许还为时过早。
摒弃一枝独秀的年代
匹兹堡超级计算中心的特殊项目总监Jim Kasdorf认为,虽然Gb级以太网很强大,但是InfiniBand在500强名单的高端领域还是不可忽视的力量。"在高端,InfiniBand的地位非常稳固",他告诉Byte and Switch杂志说,"Gb级以太网将滑落到低端--它是一个非常低性能的接口"。例如,20强系统中有三分之一都依赖InfiniBand,包括第四名的位于德州尖端计算中心的"Ranger"系统,以及印度的EKA超级计算机,后者是名单上非美国站点最强计算机之一。
"带宽并不是一切。"一家广域网优化厂商的资深技术经理曾经在前几日的访谈中这样对我们表示,他认为,延迟和内部协议的混乱是企业必须要去进行广域网优化的重要原因,因为带宽只是其中的瓶颈之一。在超级计算机或是更广阔的高性能计算应用上面,以太网--当然包括10Gb以太网的延迟仍然不能和InfiniBand相提并论,对于绝大多数应用来说,对一端上的Myrinet与另一端上的以太网之间的延迟的差异并不敏感,但是对于Roadrunner这样的超级计算机来说,它仍是敏感的。同时,协议的互转也是一项极为"耽误速度"的工作,于是,聪明的厂商们发明了FCoE和IBoE--InfiniBand-over-Ethernet,从名字上就能看出来,这是一项与FCoE极为相同的技术,Mellanox相信,这将抱住企业设法消除专用的孤立存储网络,建立支持InfiniBand的以太网络,事实上,Mellanox目前的ConnectX适配器已经可以在以太网或InfiniBand通用,因为两者目前的布线协议是一样的。
所以,我们看到的潮流或许不仅仅是以太网回来了,不仅仅是InfiniBand好像被以太网给打败了,而应该是InfiniBand和以太网配合的更好了,这一点我们可以从数十个既用以太网又用InfiniBand连接的超级计算机上面看到,也能够从目前各家以太网厂商和InfiniBand厂商的表态上看到,事实上,这些趋势从2006年就已初露端倪:
2005年,高速InfiniBand厂商Myricom投入到了以太网技术的怀抱。在其所推出的Myri-10G交换机增加了对10Gb/s以太网的支持。
同年,以太网交换机领域中的领军厂商思科(Cisco)去年就通过收购Topspin的方法进入了InfiniBand领域
2006年,Voltaire公司决定为其Grid Director交换机推出一款10Gb/s的以太网线卡(line card)。
2008年,Mellanox在加州由开放架构联盟(OpenFabrics Alliance)支持的国际Sonoma Workshop上,Mellanox会发表一份提案,努力共同推进"IBoE"战略。
我们很想知道,是否已经有足够多的人明白,InfiniBand将会和以太网相融合,而这与FCoE的出现将有异曲同工之妙,那就是:未来的网络将走向融合。
网友评论