第一页
性能:系统理论峰值计算速度、LINPACK测试峰值速度、实际应用中持续应用性能
效能:包含了高性能、可编程性、可移植性、稳定性等多个方面要求的全新评价体系
从近年来全球TOP500高性能计算机排行榜来看,TOP500中几年来第1名和第500名均保持6-8年的时间,也就是说当今的第一名在6-8年后则排名到第500名,而8-10年后微处理器芯片就可达到本年度TOP第500名的浮点性能。自97年6月TOP500排名中第一次出现LINPACK测试万亿次(1 Teraflops)超级计算机到8年后全球最快超级计算机TOP500排行榜入门门槛1 Teraflops,万亿次计算时代到来。从这个意义上来说,当前人类10万亿次计算时代正在拉开序幕。2008年6月,全球第一台Linpack测试峰值千万亿次(Petaflops)计算机(IBM Roadrunner)出现,我们期待8年后,也就是2016年,千万亿次超级计算时代的真正到来,也就是说千万亿次将是全球TOP500排行榜的入门槛。
千万亿次计算时代意味着什么?所谓千万亿次计算是指每秒进行1千万亿次双精度浮点运算,这是当前中国服务器企业研制的最快超级计算机曙光5000A 系统的6倍。如果说在10万亿次计算时代我们可以基于商品化处理器部件、交换部件、存储部件、开源操作系统等构建工业标准化机群来满足我们在计算密集、I/O密集等多个领域的应用需求,那么在未来的几年,伴随应用对计算能力的进一步需求,例如,在生物医学领域进行蛋白质电子态的计算、药物发明中的遴选过程、蛋白质折叠等需求、航空航天制造领域进行的发动机燃烧模拟和机翼设计模拟、气象领域的短期天气预报、局部突发性灾难预报(如洪水、海啸)、核能领域的完全等离子分析、纳米技术领域的复合材料结构分析和功能预测、新材料的发明、天体物理学领域的超新星三维模拟等这些应用都需要持续100 T flops以上的计算性能,有些应用甚至需要1Petaflops的持续应用性能,我们再基于机群架构来构建高性能计算机,将面临扩展性、可靠性、功耗、均衡性、可编程性、管理复杂性等诸多挑战。
高效能代表高性能计算机的发展方向
当前普遍认为,机群逐渐成为市场主流,但困扰其大规模扩展(如面向千万亿次扩展)的关键问题一直没得到根本解决,主要存在如下关键问题:
内存和I/O 墙(Memory and I/O Wall):系统结构的失衡问题,存储器性能与处理器性能差距越来越大,本地带宽及延迟和全局带宽及延迟发展不一致所造成的差距形成了阻碍性能提升的“内存墙”(Memory Wall);系统从I/O输入到I/O输出的不均衡带宽设计,让系统吃得进,吐不出,从而形成“I/O墙”(I/O Wall);
功耗墙(Power Consumption Wall):当前功耗也已经成为制约高效能计算机系统发展的主要因素之一,当前每个机群节点耗电在300到1500瓦之间,而一个机柜耗能在20到30千瓦左右,2016年一台持续千万亿次超级计算机系统可能需要消耗20兆瓦或更高的功耗。未来千万亿次计算时代高性能计算机系统,其每瓦Gflops性能应在1.0GFlops per watt 以上,我们可能会采取比如水冷或节能型芯片、FPGA等技术,但不能从根本上解决能耗问题;
编程墙(Programming Wall):在编程方面,用户为完成一个具体的并行应用在建模、编码、调试、优化、运行、维护和故障处理上所遇到的各种困难交错形成了“编程墙”(Programming Wall),怎样很好利用为数众多的处理器海(Processor Sea)?怎样面对数十万并发线程?
复杂性和可靠性墙(Complexity Wall):在管理方面,高性能计算机软硬件系统交织,管理的复杂性随之成倍增长,形成了新的“复杂性墙”(Complexity Wall);
可靠性墙(Availability Wall):对高性能计算机系统来说,可靠性也是其挑战之一,当其扩展到成万或十万颗之多CPU以及几百Terabytes内存时,我们如何保障硬件系统的可靠性,同时在这样大规模的系统运行中,软件错误也很难避免;
网友评论