案例类型: 教学科研的并行计算和深度计算
项目背景:
华东理工大学地处人文荟萃、海纳百川的大都市上海,原名华东化工学院,其办学历史可以追溯到100多年前的南洋公学和震旦学院,是1952年全国院系调整时由交通大学(上海)、震旦大学(上海)、大同大学(上海)、东吴大学(苏州)、江南大学(无锡)等校的化工系合并组建而成的全国第一所以化工特色闻名的院校。
华东理工大学化工学院是学校重点院系,院系的师生这些年来在分子计算领域取得了极大的进展,以Gaussian,MS为中心的多种计算化学方面的高性能计算软件和多几点的高性能集群正在帮助材料学研究者以及理论化学研究者们实现多种计算机实验和推导。
用户需求:
由于计算化学领域计算问题非常复杂,采用高性能计算机系统成为理论化学计算的必由之路。而院系原来一直采用AMD处理器的服务器进行运算,目前已经不能满足院系师生的需求,学院决定更新高性能集群服务器,切实实现高性能并行计算应用分析。
更高的性能价格比。更高的可扩展性。更高的可管理性。更高的系统强壮性。对应用系统的支持。
项目实施:
宝德科技的技术工程师立足前期的成功合作案例和经验,在INTEL的大力支持下,通过长达2个月的校方应用方向和需求分析,运用INTEL解决方案中心的测试条件,同时兼顾后期校方的更大规模网格计算的扩展需要,针对性的推出了POWER 8000 HPC应用方案。
宝德技术人员投入极高的专注和热情,针对华东理工的项目特点,设计了一整套符合学院软件要求的集群方案,并在学院采购前和学院师生一起搭建测试平台,验证设计方案。
另外Intel提供了系列的优化工具、编译工具、集群工具等众多高性能计算组件,为IA架构、标准互联的高性能计算系统应用提供高效率的保证。成为本次HPC项目成功实施的关键。
方案描述:
宝德科技为华东理工大学高性能集群系统可提供标准的Intel服务器平台系统,先进的高性能服务器集群系统,具有实时多任务并行操作的高性能、高可用性、高稳定性、可靠性、可扩展性等优势。
宝德HPC解决方案充分结合客户的实际需要,提供了以最新Woodcrest双核服务器为计算节点的Power Cluster8000I高性能计算机系统,采用免费OSCAR中间件实现节点管理、任务分发和集群监控,使用以太网的优化通信库模块来实现节点之间的进程通信。
再加上一套完整的Intel优化编译工具和函数库等软件来优化化工院的应用,使系统的性能得到充分的发挥,成为高校高性能计算系统推广的表率之一。
华东理工大学高性能计算计算集群系统是一个是基于网络、面向科研等的大型高性能并行计算系统,该系统的基础是主控节点、计算节点等硬件基础平台的建设和互联系统的建设。
该HPC系统对研究方向所涉及的大规模高复杂性系统模型验证算法、大规模数据处理与服务等问题的研究提供了有效的支撑平台,性能超过语气,而成本投入比小型机集群节省60%。”采用基于WOODCREST处理器的计算平台和以太网互联网络,在多个测试实例中,用Intel编译器编译应用程序和MPI库函数比用GNU编译器获得53%-60%的性能提升。
技术实现:
宝德高性能计算集群系统分层次设计,按照Intel的高性能计算生态系统部署,自上而下,按照:HPC并行应用程序→中间件集群管理和通信库以及各类软件优化工具→操作系统→计算节点和主控节点的硬件平台→系统环境的部署设计:包括散热、电源、空间布局等规范化的设计。
Intel高性能计算生态系统是Intel在业界多年研究和分析的结晶,科学的层次化部署,将复杂的大型并行计算平滑移植到性价比良好的IA架构的平台上,并保证相当的效率,不但为大型并行计算问题开拓出了新的解决方案,也为未来的网格计算做好了相当的理论设计基础。
HPC系统从各个关键部件如节点、网络拓扑、中间件、管理平台的选用最终决定了HPC系统本身的稳定和可靠,以及最关键的效能。本系统采用纯英特尔服务器机架式设计,继承了Intel服务器平台七大技术,保证高性能计算系统平台的高可靠、高可用和可维护性:
√指示灯引导诊断(Light-Guided Diagnostics):提高可维护性和故障的迅速恢复。
√电源和散热空间(Power and Thermal Headroom):进行电源和散热工程设计预算,以实现最高性能。
√主动气流控制(Active Airflow Control):提供机箱散热和风扇控制,保证服务器冷却和安静。
√硬盘稳定技术(Drive Stabilization Technology):提高硬盘的可靠性、使用寿命和性能
√驱动器电源隔离(Drive Power Isolation):为热插拔硬盘提供关键紧急保护
√多路径引导(Multi-Path Boot):保证系统即使在出现许多基础错误时也能正常启动。
√验证压力测试套件(Validation Stress Test Suite):有助于确保最新高性能服务器的数据完整性
并根据系统环境的各种物理机械、电磁兼容性设计及冗余设计等,严格按照国家规范进行。
推荐硬件:
节点采用宝德PR1510D服务器,采用INTEL 5110处理器,2GB ECC DDR RAM、SATA II 80G、Intel主板集成的双千兆以太网卡Intel 。
软件环境:
操作系统:RedHat Linux AS 3.0(支持64位应用);
应用软件系统:MPICH(RedHat Linux自带的模块);
其他:GNU C/C++编译器、Intel C/C++编译器、Total View调试工具、Intel Vtune调试工具、Intel® Cluster Tools集群工具(生成、分析和优化集群应用)。
经验收获:
宝德高性能计算集群系统的软件和硬件以及基础架构都保证了规范、标准、开放、通用,可以方便使用和在其平台上开发自己的应用。最大限度的提高了应用的效率和移植性,适合于客户在化学领域多种应用的部署。
华东理工化学计算研究中心主任黄伟民认为:“宝德科技的高性能计算集群系统由于采用了业内领先的技术,不仅性能突出,安全稳定,对未来的扩展能力也极强,用户完全可以放心将来的集群扩展问题。整个集群的峰值计算能力以及实际预算能力这两项指标都能跻身同类产品的前列,同时又有一个更低廉的价格。”
深圳宝德科技有限公司总经理张云评价:本次采用INTEL架构服务器搭建的HPC环境,充分体现了领先一代的Intel IA平台从研发到制造工艺,Intel积累了近二十年的技术结晶,厚积薄发,为高性能计算研究领域提供最好的计算平台。
网友评论