关于高性能计算的最重要争论是高性能计算机到底应该是蚁群还是象阵,是蚂蚁雄兵还是很厉害的一台大机器来做,这些争论从90年代出就已经开始,而到目前为止这样的争论还是没有明确的答案。
实际上各个行业对于高性能计算的需求,在前几年还处于一个比较平缓的阶段。但在最近几年来看,全球对于高性能计算的需求越来越呈现逐步上涨的趋势。在国内同样也是这样,尤其在科研和相关的领域。像在地震等勘探领域中的应用就属于比较典型的一类,广泛的应用基础使得大家对高性能计算如何去做,产生了争论,同时也激励人们进一步对它进行探索。
在这些争论中关于高性能计算的最重要争论是高性能计算机到底是蚁群还是象阵,是蚂蚁雄兵还是很厉害的一台大机器来做。关于这个问题,大概在90年代初,国际上就有很多不同的声音。实际上,到目前为止这样的争论还是没有明确的答案。
面对这样一些问题,现实的产业链收获了哪些经验,科研界又得出了什么样的结论?更强的巨象去年10月份的HPC TOP500排名中,排在第一的是美国IBM的产品,但它目前还没有最终交付使用。按照设计,它的计算能力已经可以达到70万亿次。
在TOP500的产品中,有320套是用英特尔的CPU,290多套的TOP500中的计算机是用集群技术。此外,在TOP500中一共有17套是中国的机器。
IBM蓝色基因也是采用集群结构,它最终设计会达到70万亿次,一共使用了13000多个CPU,CPU用的是嵌入式Power芯片。而在过去三年中一直处在TOP500第一位的NEC公司产品地球模拟器,拥有5000多个CPU,还具备向量处理机,它与IBM蓝色基因的结构是完全不一样的。
大概从1995年之后,各个国家逐渐开展了对网格技术及应用的研究。
蚁群崛起
针对网格最早的研究是从几个方向来做的。举美国国防部的例子,它拥有一个GIG军事网格计划。它主要是追踪分布在各地的各个结点上即时数据。在2001年9月,福布斯杂志对电脑业趋势发表了一个非常重要的文章,这篇文章发表日期正好在9.11的前一天即9月10号发布的,他们认为信息技术下一波浪潮在2004到2005年度出现,并且造就15年IT的发展,而此前一段时间信息技术处于一个非常低靡的状态,新浪潮的核心就是从www升级为网格,Grid技术。
网格的目标是希望网络像一台计算机。网上所有的资源像一台计算机一样被使用,包括后面的操作系统、数据、应用、存储、I/O以及处理的能力,如何把这些异构的资源或者不同类型的资源变成一台计算机,使得人们在这个网络中能够共享运用、共享数据、共享处理能力和共享存储,代表了人类对于信息最终极的需求。
网格使信息化透明
信息化实际上是把我们生活的物理世界转换成数字的世界,然后再将数字世界影射成全物理世界,成为我们认识和改造物理世界的工具,这是信息化的本质。网格就使得信息化的过程后面这些复杂的东西对最终用户来讲更加透明。未来的网格希望使人们能像用电一样使用信息。
来看看第一代互联网:最早的互联网通过TCP/IP协议把计算机连在了一起。1995年之后ADCML把网络连在一起,变成很大的网络,形成一次很大的浪潮。网格需要把应用联系在一起,消除应用层面的资源孤岛,形成应用层面的互联互通。国际上关于网格的定义也非常多。
在亚太地区,实际上有很多国家的技术人员在关注网格的发展,包括中国、日本等等,其中日本走在较前面,泰国也投了3000万美金进行网格研究。什么地方最需要用网格?第一是能源领域,其次是金融服务、制造业以及生物制药等等领域。对于网格来讲,因为它是一个不断成长的技术,所以对于网格也有各种不同的观点。第一种观点是,网格正在不断地发展,没有确切的定义。另外一种观点是,网格是信息化的技术架构。
对于计算所来讲,我们觉得应该是上面观点的集成。网格技术无疑正在逐步的发展,它带来一种思想,你在做任何一个系统的时候,首先都要去考虑资源的共享,因为新的技术总会带来新的发展机遇,它在技术上和产业上可能会带来很多的东西。
计算技术发展的历史是不断虚拟化的历史。网格的本质是数字空间更高一层的虚拟化,把连在网络的各种资源看成一台计算机。
其实不只是网格技术,任何一个技术发展的过程都包括四个阶段:第一阶段是专家使用,第二阶段是早期流行,接下来是功能认识,最后是广泛使用。
由于Internet发展,Internet对于资源和信息有了很大的公众认识,下一阶段就是怎么去使用这些资源。我们处在从量变到质变的临界点,网格是使我们能跨入临界点的一个比较重要的技术。
我们以前讲高性能计算机的标准是可用性、可管理性、可获得性等等,人们根据这些性能和标准编成了SUMA 。现在这些标准已经发生改变了,第一通用服务,第二辅助智能,第三全局一体,第四自主控制。网格在这些方面给用户带来了好处,我们希望通过这四个方面,功能、性能、技能、可依赖性来提高计算的产出和降低成本。
在计算机的性能上该如何提高?在国外,有两个定理受到了大家的广泛关注。第一个是麦德考夫定理,第二个 是布朗定理。人们在讲网络的价值或者信息的价值时,他们被采用的很多。信息的价值存在于它使用的过程之中,它怎么才能具有更高的价值?第一要和用户数的平方成正比,第二要与使用用户社区个数的平方成正比。
麦克考夫为什么提出那样一个定理呢?他是想考察全球计算机资源利用率。研究显示全球计算机的利用率是小于1%的,可能每天都在转,但只有1%的时间是来做用户交给他做的事情。
也有人对航空工业做了一个统计,航天科工二院做了统计,他们目前的使用率小于30%,同时每年必须要花约3个亿来升级现有的机器,如果能通过网格技术突破计算资源使用率低的问题,肯定能够带来很高的商业价值。
对网格应有一个最根本的观点。第一,网格是一个分布式系统,但是网格不同于传统的分布式系统,传统的分布式系统每一个系统都有明确的目标,都有非常明确的应用的目的。其次,它不一定要遵循通用的技术,不一定要遵循开放的标准。第三是非集中控制,让每个用户自主控制。再一个就是服务的模式,它最终是给用户带来一种服务。
把网格和传统的计算机做一些比较。传统计算机有硬件,有操作系统,上面是操作界面,最上面是应用,网格基本上也是这样,网格的应用、网格的操作界面、网格的操作系统、网格的硬件。既然是把整个的Internet,把整个网络编成一台计算机,计算机有什么,我们是不是能够类比的去做相应的工作?包括应用和数据库。
网格体系中最核心的一块是操作系统,英文称之为GOS。GOS的目标是希望研制一套网格软件,能够有效的支持分布在全国各地多个网格结点,为科学计算和信息服务提供安全、统一、好用的界面。任意地方联网的用户可以方便地访问网格资源,实现计算、数据、软件和组合资源的共享。网格,是把物理资源变成虚拟化资源,变成有用的资源,物理资源已经不是单纯的计算能力了,不是单纯的计算机,它有可能是一个存储器,是一块硬盘或者是一个磁盘阵列,有可能是一个数据库——分布在各个地方的数据库。
本文原载于《信息系统工程》
网友评论