2006年4月,在引进了曙光4000系列高性能计算机后,南京航空航天大学以往用一个月才能处理完的核物理试验数据,现在2~3个小时就可以处理完成,而这个核实验的背后还有着另外一个“核”话题,该高性能机群的32个计算节点全部采用了双核技术。
前沿应用引发前沿需求
南京航空航天大学是国家“211工程”建设的全国重点大学,是全国56所设立研究生院的大学之一,现隶属于国防科学技术工业委员会。在科学研究上,南京航空航天大学在基础研究、高新技术应用基础研究和国防重点型号工程研究等方面显示出强劲的实力,其中直升机技术、无人驾驶飞机技术、机械制造与自动化等15个研究方向居国内领先水平,而众多致力世界前沿的科研项目也对于计算中心系统的先进性、稳定性、可管理性以及可扩展性四大方面有着很高的需求。
南京航空航天大学(网格系统)的建立需要利用网格技术实现大规模科学数据集的协作虚拟化,实现高要求数据分析所进行的分布式计算(共享计算能力和存储空间)。网格将在科学计算、信息集成领域一展身手,提高南航的科学试验计算能力,是典型的高性能计算应用,需要大规模HPC系统。
南京航空航天大学网络中心主任袁家斌表示,对于计算中心的系统,必须在先进性、稳定性、可管理性以及可扩展性四大方面达到很高的需求。针对南京航空航天大学所提出的各项需求,曙光公司做出了全面且极具指导性的回应,并且积极指导南京航空航天大学如何构建高性能服务器机群,解决服务器处理能力不足、计算规模小的问题。
双核“金刚”落户南航
对应于南京航空航天大学的实际需要,曙光公司提出了采用基于机群架构的设计思想,选用最新的曙光TC4000L系统。曙光4000L是基于Linux的超级服务器系统,也是当前国内最大的IDC数据处理主机,存储与处理能力均十分强大。并且根据实际情况,该系统最大可“在线”扩展到80个机柜,1300个CPU,每秒6.75万亿次峰值速度,4000GB内存,600TB存储,1200A最大电流,160千瓦最大功耗的海量处理系统,极大程度满足了学校的计算需求。
南京航空航天大学(网格系统)计算节点选择采用2U机架式服务器的曙光天阔A620r,该服务器配置两颗AMD
Opteron双核处理器,双核处理器可以在不提升处理器工作频率的情况下,达到双倍性能。而且由于双核处理器每个核心的功耗都已经降低,因此处理器功耗不会很大,同样大小体积的双核Opteron的散热量与现有的单核芯片大同小异。
在南航的高性能计算系统中,每个天阔A620r节点都内置4GB的ECC Register DDR400内存,这样的节点一共有32个。同时,网络中心还有另外两个天阔A620r节点,一个节点负责IO吞吐服务,一个节点负责用户登陆服务。并且两个节点互为备份。32个计算节点通过千兆网络连接,形成计算网络。所有计算节点均引入“网卡绑定”技术,将两个千兆网络绑定在一起,增加网络带宽,提高系统可靠性。
另外,曙光4000L采用数据交换网和管理网分开的方式,有效地减轻了对数据网的负载,做到系统管理对业务网络完全没有干扰。接入管理网采用了百兆以太网,在本项目的曙光4000L机群系统中,采用了一台24端口百兆交换机组成一个百兆以太网,各节点通过它连接成百兆的管理网队整个机群的管理、监控。而千兆计算网络主要用于机群的、登录、任务调度等系统管理员常用工作。这个网络既是用户接入、系统管理网络,也是高速数据网的备份网络。通过网络管理软件,南航网络中心的管理员可以通过中央工作站控制所有网捷网络产品软件和配置的升级,极大地简化了网络分配、故障诊断和清除,从而减少安装和维护网络基础设施的总成本。
用户回音:
南京航空航天大学网络中心袁家斌主任表示,技术与品牌是南航决定和曙光合作的重要因素。曙光是国内最早从事研发、生产服务器和服务器机群的专业厂家。同时,在高性能计算机群系统中,曙光公司也是在国内部署机群系统最多的公司。而和国外著名厂商相比,曙光充分考虑到国内用户的本地化要求,管理软件界面是中文界面,同时也支持英文界面,可以在程序内直接进行切换,无需重新启动,这项功能是曙光机群管理系统的亮点之一,也让使用者为之一振。
曙光4000是一款既能进行高性能计算,还可以满足信息服务需要的高性能机群系统,对于未来航空航天工作起到决定性的推动作用。曙光的技术人员介绍,该系统完成后可以进行每秒4000亿次的高能运算,相当于一秒钟内全国每个人运算300多次,然后把所有人的运算结果加到一起。通过和南航袁主任进行的交流得知,如果和旧的运算设备来做对比,以往用一个月才能处理完的核物理试验数据,现在2~3个小时就可以处理完成。
网友评论