从今年开始TOP 500的HPC榜单开始,就增加了一项TOP 500的能耗指数,这说明业界已经不仅仅关注HPC的峰值计算能力,也在关注HPC所消耗的能源,并试图将其作为一项辅助的参数来评判HPC项目的意义。
这也是一些HPC项目试图寻找控制使用能耗方法的意义所在。就如同此前奥斯汀市德克萨斯大学德克萨斯高级计算中心(TACC)高级计算系统助理主管Tommy Minyard所说的那样,“我们对于更大的计算能力的胃口是永远填不饱的。但我们的确开始关注电力和冷却问题。”
对于曙光公司为上海超算中心所设计制造的我国首台峰值过百万亿次的HP曙光5000来说,也正是如此。
曙光公司副总裁聂华在详细解释曙光5000所采用技术细节时,就讲述了曙光5000中所采用的种种节能技术,包括采用水冷技术、低功耗CPU等。
不过,聂华认为,如果用户只是构建每秒1万亿次的系统,则可能不会关心能耗的问题,因为那样的系统功耗也就在100千瓦或者500千瓦,但是如果系统功耗到了1000千瓦或者2000千瓦的时候,就必须考虑有关能耗的问题。“每降低10%的能耗,意义都很重大。”聂华说。
聂华表示,节能是曙光5000设计中非常重要的要求,不仅是因为用户成本的问题,更多的是因为建筑本身的供电能力以及当地市电的供应上限,都受到制约。曙光5000的全年运营能耗少于1000万度,如果除去其中水冷系统所需要的300万度的话,那么全年只需要700万度电费。这应该说是一项非常低的数字指标。
根据曙光公司的测算,采用AMD的芯片能够比采用英特尔的芯片,在系统的峰值能耗上有非常大的优势。此外,聂华表示,曙光5000的设计初衷是实现高效能计算机,4路AMD芯片的节电设计将能够降低系统的规模,也能够增加节点的稳定性。“为了追求系统的整体性能,直连内存技术是必须采用的,这也是采用AMD芯片的一个重要原因。”聂华说。
此外,聂华还表示,尽管对于高性能计算公司来说TOP 500的排名很重要,但是从应用角度来讲,必须考虑系统的整体能力。
曙光为了降低曙光5000的能耗,特地采用了低功耗本版的AMD四核芯片,该芯片比普通AMD芯片降低了大概20%的计算性能,比英特尔的芯片也牺牲了一些性能,这因此导致了曙光5000整体峰值计算能力上面的降低。但是从上海超算中心应用的应用和效能设计角度来讲,这是非常有意义的一件事情,能够帮助他们在满足性能需求的同时,节约电费,降低成本。
此外,聂华介绍,在曙光5000的整个系统中,采用了液冷的方式对封闭的区域进行了局部的制冷:通过 一个微型的散热管道,实现了热量的交换。本来液冷所带来的最大问题是难维护,有漏水的危险,但是曙光通过设计使得液冷系统维护非常方便,并且不会影响到整个系统运行。
“此外,我们还做了计算刀片间任务调度、均衡、无作业节点的休眠等防护措施,从各种角度来降低曙光5000的能耗。“聂华表示。
正如Minyard所说,毫无疑问,随着常规数据中心的规模和复杂不断增长,TACC和其它HPC中心学到的经验教训总有一天会在常规数据中心派上用场。
网友评论