曾宇:我们为什么要做服务器、我们现在做得如何、以及将来刀片如何发展,到现在为止,服务器毫无疑问是主流产品。
第一页
受访者
曾宇 曙光公司研发中心总经理
沙超群 曙光公司研发中心总经理助理
曾宇:我们为什么要做服务器、我们现在做得如何、以及将来刀片如何发展,到现在为止,服务器毫无疑问是主流产品,而在当前为止,我们在市场上看到的刀片服务器,绝大部分还是IBM等企业的产品,这样我们面临一些疑问,曙光为什么投入3000多万做刀片式服务器?意义何在?我们可能会面临一些挫折,这么大的工程我们前前后后经过了一年半的研发,面临了很多的坎坷,而且今天这样的生态环境已经非常残酷,到今天,我们中国市场上,如果说有四台刀片服务器,那有可能有三台是IBM和惠普的,还有一台可能是我国厂商贴牌做的,如果我们不顶着非议去推出我们的服务器以及相关标准,我们就会面临很多的问题。
我希望今天用我在研发中心总经理的身份来给大家介绍这款产品,看看我们产品为什么研发?我们的现状、以及我们的将来怎么继续发展这样一系列产品。
在周二我专程针对曙光刀片向信息产业部产品司做了一个汇报,领导对我们刀片产品非常重视,如果我们对国家一些重要的研发基金了解的话,今年第一年在基金里面把刀片服务器作为一个重点来支持,实际上以后信息产业部会把刀片服务器作为一个重点来支持。十一五规划,我们把高性能计算来支持,实际上刀片服务器是它的载体,我们再过三到四年,未来的载体肯定会是刀片服务器,从目前国内和国外来看都是这样。
我们看国内外的排行榜里面,大量的企业使用刀片服务器来构建高性能计算机,所以未来三到四年百万亿次计算机将以刀片服务器作为载体,所以我们必须作出自己的选择,要做刀片服务器,而且做出我们的特色,能够在当前非常纷杂的环境里面有自己的一席之地。
我从三个部分来谈,一个谈为什么要做刀片服务器,然后到底做得怎么样,其次谈谈将来的想法。
从这个图可以看到,IDC这个预测,到09年刀片服务器在市场的份额将达到25%,出货280万台,这个市场是非常庞大的,所以今年很多企业在刀片服务器方面做了大量投入,包括IBM,它在04年开始就和Intel在搞联盟,另一家巨头退出了这个联盟,准备开始自己做,大量一些国际巨头把他们的目光和视野定焦在刀片服务器上,大量的企业和学术机构也把他们的目光定位在刀片服务器,这是一款巴塞罗那的机器,在去年的排名中已经排到前五。
在中国排名前100名的最快的超级计算机,我们可以看到六台是刀片,而且占到67%,这个比例非常惊人,实际上HPC里面,地球物理、生物计算、气象等等这样一些领域,如果我们有五台刀片是用在地球物理领域,这是我们敲的警钟,以曙光、联想、浪潮这样的主流都开始使用刀片,我们必须研发我们的产品,而不能是贴牌。
(未完,请翻页)
第二页
从技术角度来看,刀片服务器已经成为发展的必然,从去年开始,我们可以看到大量的厂商开始在刀片服务器领域进行频繁的动作,包括IBM,很有名的,获得了华登一个亿的风险投资,它是用于支持使用刀片服务器的用户。刀片服务器有整合性的特点,另外具有排他性,我们只要使用了刀片服务器,你如果用曙光的,可能以后只能用我们的框架和技术架构,如果用了IBM的,就只能符合它的系统框架和技术。所以谁占领了这个领域的制高点,谁就可能掌握了在服务器领域的主动权,所以去年IBM专门用了一个亿美元来做推广,另外一家在加州的企业获得了3200万美元的风险投资,主要的领域就是虚拟计算,绝大部分我们的对手,在国外的企业,都把刀片作为他们主要的技术选择方向,所以到现在为止,我们面临这样的现状,我们只有研发自己的刀片,没有别的选择。
去年我们决定成立我们的研发团队来研发我们的刀片服务器,正是曙光看到了这些在市场、技术上面的发展趋势,我们看到国外的公司的一些野心,我们才决定投入巨资做这样的项目,这是曙光刀片服务器的概要介绍,7U10片,我们最高的带宽是42.5G,我们支持冗余散热系统,根据温度控制风扇,其次还支持刀片异构,支持AMD、Intel,以及基于龙芯的刀片,我们有不同操作系统的刀片,其次我们还有大量的技术用在刀片里面,包括冗余的千兆、冗余的风扇等等,我们在业界首次实现20G的交换,这个指标在业界是领先的,整体的功耗大概是4000W。
这是整个组建的分解图,有10片计算刀片,有IO扩展膜片、PCIE的扩展卡10片,可以有效支撑存储运用,在最近这几年的千万亿次挑战中,很多专家一致认为可植入计算是很好的武器,其次在我们后部有5+1的电源,支持三组窜组的风扇,也支持两个冗余的模块,两个千兆模块,并且有类似的交换机。
这是我们的俯视图,两边是我们的供电模块,中间是我们的两个管理模块,这边是两个交换模块,中部是IE扩展模块,这是我们的计算刀片,这个系统可以支持从两路到四路的扩展。这在扩展器方面是飞机有利的,同时可以支持16G的DDR内存,可以支持两颗热插拔SAS硬盘,同时引入PCI-E的。
实际上刀片服务器从诞生就有一些与生俱来的特点,真正做刀片服务器的是有一个专家,他曾经在硅谷搞一个公司,后来在深圳做刀片,实际上真正看这些企业做的刀片,倒不是特指某一个刀片,他们的刀片更多是OEM,没有自己的原创,而我们曙光是完全具有自主知识产权的,我们已经申请了50多项专利,30项是发明专利,实际上在高教委我们也希望先做一个服务器,后来信息产业部觉得有必要从各个角度保护我们的行业,所以我们做了高新科技发展委员会这样一个组织。
刀片服务器有整合性和排他性,我们需要有深厚的知识产权,我们不是有几个基架、有一个机箱就可以,我们还有操作系统和文件系统,这些软件方面的工作也需要大量人力和物力进行研发。曙光的刀片服务器是真正意义上具备做一个机群,做一个单一系统来运作的刀片服务器,其次我们应该有很多的很深的行业积累,刀片服务器不是一个简单的产品,不像笔记本一样,要进行配制、管理、定植化,根据用户的特点来进行定制,所以IBM投入一个亿美金来支持用户,所以我们应该有资金的积累、解决方案的积累。
(未完,请翻页)
第二页
从这几个方面,曙光具备研发一款完全自主知识产权的能力,是一种必然。
到目前为止,我们刀片完全符合中国的刀片服务器标准。
下面介绍一下服务器六大技术特色,第一个一体化远程监控,通常情况下谈到的监控,很多企业谈全局资源监控管理,实际上我们有没有可能把这二者结合起来呢,很多企业没有做到,曙光做到了,我们可以在今天会议室可以实现远带洛杉矶的一台曙光服务器的监控,我们可以通过这种图形化的截面,通过所见即所得,来直观看到我们在全球的软件信息、性能信息等等,其次我们可以做到一体化的监控截面,既可以整合我们的KVM界面,其次还可以做到图形化的信息的直观显示,一个交换机的状态是好是坏,在这个图象里面可以显示,同时还可以透明化操作,不用管我们的刀片插在哪个位置,它和别的方面是什么关系,我们可以直接基于浏览器来做到透明化的管理,包括控制,其次我们是一种远程加密安全控制,可以有效地保证我们的KVM从洛杉矶传到大陆,信息不会对其他人监听,曙光刀片服务器之间可以进行互联,如果构建一个机群的话,可以做到基于角色的统一管理,同时可以有效地审计我们用户的监控行为。我们强调我们具备这种一体化的远程监控功能,所谓一体化,一方面是KVM信号的本地化,另外一种是远程化、图形化监控,这是我们的一大特色,事实上我们可以看到,大概是这样的状态,我们可以通过我们的界面方便地去看每个刀片的KVM信号。
我们第二大技术特色节是可以做到基于策略的层次化管理,刀片服务器分成不同的部件,有电源、风扇、管理部件等等,不同的部件管理方式不一样,比如说对风扇来说,可能根据我们的机箱温度,可以低速运转,对电源策略等实施评估,我们要做到对不同的部件进行层次化管理,我们把刀片分成几个层次,整体可能是全局概念,实际上不同部分有不同层次,比如说管理模块有我们的DMC卡,也有我们本身的管理模块,事实上我们可以就不同的模块进行不同的策略共享,比如说上电策略,我们功率如何控制、散热如何控制,刀片控制策略怎么样,以及我们的交换策略、报警策略,是主动报警、还是其他的模式,其次也可以自己定制控制策略,并且我们可以做到基于策略的主动防护,如果一个系统遇到攻击,我们可能采取切断链接进行防护,比如说策略,如果温度过高,可以基于我们的策略来实施任务的牵引,或者我们的电源可以起动一些或者关闭一些。我们可以做到十个刀片共享一个USB口,也可以远程的USB本地化,方便对刀片和维护。
第三大特色,事实上也是在刀片服务器领域比较具备特色的功能,可以做到自适应的功率管理,包括四个方面,热平衡设计、自使用节能管理、智能风扇控制、基于策略的主动防护。这个特色是我目前在业界中,曙光是唯一一家的刀片。根据我们的温度状态,可以智能化控制我们的风扇,并且可以做到基于策略的主动防护。
在散热风暴设计方面,我介绍一下四个特四,针对自适应特色里面的四个特色,整体采用整体机箱散热方式,可以起到散热作用,同时对采用侧面吹风设计,这是我们整个风道的模拟。通过热平衡设计从专用领域通过。这是散热风道设计的方针,通过这个详细的软件访真,来保障我们的刀片服务器散热,刀片支持120W的高性能CPU,在温度方面,我们分成三个温度区域,一个是紧急关机,根据不同的区域有不同的策略实施主动防护,实施风扇的自适应控制。
一方面我们可以根据我们的实施功耗确定工作电源个数,我们使电源工作在最佳效率曲线上,同时调整任务队列,利用事件寄存器,保障我们的系统是节能的。
第四大技术特色就是我们的刀片操作系统,很多企业提供的刀片服务器,更多是远程服务和管理,曙光整合和自己的操作系统,根据刀片服务器面对客户等需要的功能不尽相同,对技术人员需要来安装部署刀片上面的OS,针对系统管理,我们需要监控系统、文件系统等等,针对最终用户,可以进行商业计算,实际上我们囊括两大部分功能,第一就是刀片的技术功能,信息服务、监控服务、部署服务、配制服务、管理服务等等,构成一个有机的曙光刀片操作系统。
(未完,请翻页)
第三页
这是我们刀片调度系统的界面图以及系统示意图。
我们第五大技术特色就是全方位虚拟化,也两个层次的虚拟化,节点界和应用级。软件模拟和硬件模拟叫做节点级。如果我们在每个层次再细分,可能有润间、硬件模拟,有基于网格等功能,实际上今天为止,曙光服务器支持全方位的技术,提升我们的适用性。
第六大技术特色就是大规模可扩展、高可用技术。在我们这个刀片服务器里面,我们集成了大量的可扩展技术,包括冗余的5+1的模块,我们冗余的风扇控制模块,其次可以支持PCI-EXE,刚才我介绍的是曙光在高端领域的技术,同时也结合刀片服务器的特色,我们所研发的服务器的技术特点,包括一体化远程监控、基于策略的层次化管理、我们后面介绍的刀片操作系统,以及我们虚拟化运用、大规模扩展高可用技术,这些技术可以有效保障曙光刀片服务器的很多需求。
将来我们准备做什么呢,事实上我们将来准备做以下这几个事情,第一要形成Intel、AMD、和龙芯为主流的服务器产品先。一个企业如果纯粹靠OEM来做服务器,对我们的产业发展没有任何好处,我们如果没有信号全系列的刀片服务器也是没有好处的。
第二我们会协助高性能计算机委员会来建立标准,打造中国刀片式服务器原生态产业链。我们有信心基于现有的技术,打造我们的标准,保护民族产业链。
其次就是要全面满足工业标准化100万亿次超级计算机能力,当我们国外的企业都在谈桌面万亿次计算的时候,我们如果还不能实现工业标准化的百万亿次计算是有问题的。
这是我们基于刀片服务器来构建的未来设想,我们可以采用两P的、84位的、2.4G的CPU,整个系统估算要采用2620颗的四核CPU,放到今天去看的话,这是去年全球的排名,我取了前十名,如果我们曙光今天构建这样的机群的话,可以进入前五名,所以我们就是满足这样的用户需求。
(未完,请翻页)
第四页
我这儿有一个个人意见,在多核和节能技术的推动下,刀片是服务器必将是未来工业标准化的主流载体,这会对信息产业产生深远的影响。这是我的讲话,谢谢大家。
记者:我先问一下,我看到这里面提到,标准可能会对产业产生影响,但是从应用角度,对于用户来说,如果没有标准会对用户有影响吗?
曾宇:我是作为平面专家曾经参加过一次大规模机群的评标,我发现国外的企业用一些过时产品去满足我们的需求,因为我是专家身份,把那个标给废了,实际上刀片服务器比起机群来说,更具有独特性和排他性,现在到底什么样的刀片适合谁来用,业界没有标准,所以出现IBM也它的联盟,Intel也要成立联盟,如果我们没有联合是不行的,所以如果一个技术更新换代我们没有看到,这个行业的话语权就丧失了。
标准里面有一个应用标准,这是我们高标委在未来打造的一系列标准、包括气象标准、在航空航天的标准,这个标准出来对我们整个产业意义深远。不会出现我刚才说的事情,而且有些企业有专用技术。事实上就是这么一个概念,如果有十项技术,只有三项是对用户有用的,其他是没用的,他们就会形成垄断,这才是最可怕的,所以需要规范。
记者:刚才在最后一个展望说,有一个2020处理器,那是什么处理器?
曾宇:这是我们2620个四核的64位2G的CPU,就已经不是一个障碍。
记者:不是算的。
曾宇:对,理论上不是障碍了,虽然有效的问题,但是还是正常的,我们可以达到60.36T这样的性能。这些部件我们都用工业标准化的标准搭建的。这为我们未来奠定一个好的基础。
记者:您现在提出来国内的刀片服务器的标准,我们知道刀片服务器就像您刚才所说的,有一个独有性,实际上它在技术方面,很多的模块是兼容性越多越好,如何与上下游的厂商建立联系?
曾宇:刀片服务器有工作组,有做刀片的很多企业,我们会提交草案,再提交到信息产业部,形成电信行业标准,本身标准制定的时候就已经参考到了。
记者:现在自己的产品能在一个机箱里面既可以插Intel、也可以插AMD的。
曾宇:我们的刀片目前支持Intel和AMD的,年底就会形成全系列。
记者:对你们原来的产品也会兼容吗?
曾宇:我们曙光以前的产品在兼容方面还有一定的问题,我们可以向后兼容,以前还有一些问题。
记者:咱们在标准上一直在努力,这次也有开拓中国的刀片标准上进一步努力,您觉得标准制定业界的响应者多吗?有没有让有关部门认可,按这个执行?
曾宇:应该来说有三个没想到的,曾经也跟有些朋友聊过,一方面我们没想到筹备,去年8月18号筹备,到去年信息产业部科技司和人事司批准在去年12月底,再到正式成立,只有三个月时间,这个速度是非常快的,可以说信息产业部对我们非常支持和关注。
第二个没想到的是我们科研单位也是非常踊跃,最近我电话不断,很多企业,Intel、惠普、中软等企业都在踊跃加入。
第三个没想到是按理说高性能是一个高端产品,和大家不是密切相关,好像普通的用户也很支持,我们搞大会的时候,很多用户想踊跃发言,谈谈他们在这个方面的感受和体会,我们这个组织有两个特点,产学研结合,很多用户单位和研究机构都很积极,像北理工等,都很积极,确实是没想到。
(未完,请翻页)
第五页
记者:关于刀片服务器这个市场,应该说IBM挺靠前的,他们已经把刀片服务器的用户开始细分了,什么航天、石油等等,好像今年IBM应该推中小企业的刀片服务器,去年浪潮也有这样的动作,咱们这边在中小企业上有没有什么想法?
沙超群:IBM是业界真正提出推向市场化比较早的企业,他们研发比较早,随着应用出现一些不足,于是IBM就推出一个更新版,叫(英文),因为要兼容,也带来新的问题。IBM的整个东西都不太标准,所以它成立了联盟来推,但是随着发展,一个是它的带宽不足,后来网上自己公布的数据发现它的电源的功率不能达到它宣称的冗余,所以它在不断推出优化产品,当然在电信领域推出它的刀片是它的优势,曙光主要在应用上细分,同样是一款刀片,我们在软件和设计上能够在应用上给用户提供便利,尤其我们在做HPC加速,我们插入标准的加速部件,比如说是生物计算,我们可能会把这个部件算到我们的加速部件里面去,算起来很快,做天气预报跟石油,就可以把部件插入到我们的加速部件中去,这样就可以给每个行业有一个细分。
记者:刚才说的加速部件这块,出去对于不同的行业他可以是选择的,成本比原来会增加多少?
沙超群:需要增加一块加速的部件。
记者:要单独购买?
沙超群:对。
记者:加速的架构是基于AMD的架构吧?
沙超群:我们为什么能够承担加入加速部件呢,因为大家如果有兴趣的话,可以看我们刀片的实物,我们曙光刀片服务器一个最大的特点,就是所有的都是支持标准件,就是硬盘是标准硬盘,内存是标准的内存,CPU也是标准的,最关键的就是曙光刀片可以支持标准的LO卡,你到市面上买一块显卡,可以插到到里面。
所以为什么我们能做,就是因为我们可以插标准的卡。
记者:我想问一下,之前我们在前年看到IBC对刀片市场有一些预测,它的预测比较乐观,但是到今年来看,它没有达到这个预期,我想问一下曙光认为什么样的原因造成这种情况?
沙超群:刀片发展经历了三个浪潮,最早是2002年,包括很多厂商推出了刀片服务器,第一个浪潮的显著特点是高密度,最大的卖点和说法就是高密度。箱子里面最多可以插18片刀片,后来慢慢更多。再加上散热问题迟迟没有解决,所以第一次浪潮没有获得真正应用,很多厂商都没有投入市场,慢慢地直接撤下来了。基本是叫好不叫座,没有真正的销售。
第二个是以IBM推出的( 英文)为标志,IBM推出这个东西以后,中间整个市场经历了从热到冷的过程,IBM重新培育这个市场,其实我们今天这个市场预期已经在走向当初的预期,慢慢地趋势开始上来,其实大家要是细心一点可能会发现,IBM等都有一个很大的部门,这个部门是独立的,里面可能也上百人的研发无组,还有单独的销售和管理团队,会把刀片服务器从整个服务器里面拉出来。
曾宇:为什么刀片服务器到现在开始还没有热起来。这个问题我是不太同意的,就好比夏天的某一天早晨,这一天可能很热,但是早上八九点可能很凉,那一天已经热了,我们已经进入了这个天气,现在只是在早上的八九点,一方面是生态链还没有成熟,这么多企业在搞标准,就是为了打造一个完整的生态链,国内很多企业没有研发势力,直到去年我们才开始打造相关的生态链,或者说政府的帮助,做这样的事情。
其二刀片服务器要想正确地给它用,实际上企业有很大责任,我们企业要去引导,定制解决方案给不同用户,用户不知道应该用什么东西,好比上次看那个评标,国外企业就是不过期的东西卖出去,企业也不知道。
(未完,请翻页)
第六页
现在纵观目前国内的企业,确实急需要联合的力量做这个事情,让我们的太阳更早地升起来。实际上你可以看到,国外应该说已经非常好了。刚才我也简单举了例子,包括IBM一亿美金的资金支持。
记者:现在随着多核推出,单台的服务器比以前的计算能力提高很多了,可以用很多方式做,您觉得刀片这块,应该适合哪些用户做,第二应该占高性能市场的多少?
曾宇:从我们所谈到的特点来说,包括网络,20G的网络,我们还支持千兆的,同时可以做到十个扩展,我们这个刀片更多的可以满足大规模密集型的科学计算需求以及大规模的商业计算,事实上信息化建设,如果说科技计算都可以满足了,那别的更不在话下。同时还有软件的支持,我们这里边有很多包括作业调度、负载均衡的系统,这可以完全满足用户在做信息化建设以及计算的使用,同时还有虚拟化的使用能力,可以有效地提高使用效率,所以曙光服务器是通用的刀片服务器产品,可以满足大规模科技和商业计算。
记者:刚才您也提到了,国家相关部门也对HPC特别是刀片服务器的标准非常重视,您认为刀片服务器在中国的标准是市场准入标准只是技术和应用层次的标准,标准的制订对于国内市场格局会有什么影响?
曾宇:目前是三分天下,实际上我们也看到,有几个联盟,IBM、还有另外一个联盟,还有目前国内的企业,以曙光发起的企业也是一家,三分天下,希望最终我们能变成两分天下或者一分天下,所以我觉得应该说说得比较直白。
记者:实际上这个标准如果国家足够支持的话,这实际上是一个市场准入标准?
曾宇:对。
记者:我问一个问题,刚才您谈到年底会有全系列的产品出现,我想请您透露一下龙芯方面有没有实质进展?
曾宇:我不方便谈这个问题。
记者:合作还没有深入。
曾宇:合作很深入。
记者:咱们这个标准只适用于国内吗?
曾宇:三年以后成为国际标准。
记者:您觉得这个标准,向国际接轨怎么样,会不会像原来标准一样,中国非常热,但是国际上不太认可。
曾宇:现在刚刚成立,风险比较多,而且实施起来会有困难,但我相信这样一件事情是正确的,虽然有再大的困难,我们31家单位也会尽力推广,现在已经提到我们桌面上来了,我们也在拟定我们的国际化步骤,我们八月份会有一个发布会,希望在那个会上把我们国际化的想法和步骤系统化地进行阐述。
记者:现在咱们标准比较支持的,像国家的斯脱波可等厂商,这种厂商到底总数有多少在跟您联系?
曾宇:还是很多的,操作系统、芯片等企业都在里面,系统基本形成了。
记者:能不能把虚拟化介绍一下,有没有可行的方案,刚才看主要介绍一下虚拟化的构成了。
曾宇:现在有些节点级的技术,事实上我们一方面在整合,另一方面是创新。这个课题是863课题,我们还在研究,刚才我谈到分布虚拟机技术还是比较先进,目前是我们的研究项目,我们希望尽快实用。
记者:请您把第四个特点稍微展开说一下。里面可以有十个刀片。
曾宇:我觉得如果你们对别的企业刀片了解的话就可以感觉到,更多的刀片就是管理,没有操作系统的概念。我们是针对服务器的特色,我们整合部署文件系统等功能,事实上我们十个刀片,有三个刀片可能做科学计算,这样它的环境我们进行部署,文件系统也根据用户特色进行部署。如果是做商业计算,我们一些评价、评测系统,也会自动进行部署,这实际上是我们高端的技术进行了整合,这样来打造一个基于SSI的刀片操作系统。它更多是针对我们刀片的特色。
记者:有没有正式的名字?
曾宇:就是曙光刀片操作系统。
记者:等于是曙光自己开发的吗?
曾宇:对,很多企业说我们自己做的,实际上是他们拿别的企业的过来贴牌,就是一个硬壳,那是没有灵魂的。
记者:这个刀片的操作系统是不是来源与曙光的操作系统?
曾宇:对。
记者:刀片的CPU方面没有什么考虑,客户选什么就定制什么吗?
曾宇:年底之前要打造全系列的刀片服务器,目前有两个,有双核的,马上可能要做四核的。
记者:原来我们看IBM的论坛上面,散热,它有一个消音模块,我不知道咱们有没有?
沙超群:我们整个的刀片服务器噪音的来源就是风扇,我们现在一个是风扇、第二就是风从小孔里通过的时候的尖锐叫声,如果风扇全速转的话,噪音特别大,后来我们发现风扇全部打开的情况下,转速非常低的话,把CPU跑到100%,所有模块到100%的时候,发现风扇在60%左右的转速下温度还是比较理想,离CPU要求的温度还比较远,原来我们计划也要做一个消音模块,后来我们的做法是在机箱的空隙里做一些吸音材质的填充,目前效果还是比较理想的。
记者:其中有一块说到可以从双路升级到四路,是通过AMD的插槽。
曾宇:对。
网友评论