第一页
国内信息产业的高速发展,极大加速了服务器的应用规模,机群也已经走下象牙塔,被越来越多的行业所接受。随着机群系统的发展,机群的规模越来越大。当机群的节点数达到几百个以上时,由于机群系统结构松散、结点独立性强、网络连接复杂,造成机群系统管理不便,难以使用。我们有时候听说企业的高性能计算机群中个别服务器死机后2-3个月才被发现,可能我们很多人会把这当作笑话,但这实际应用中却屡见不鲜。
如果没有一套很好的系统对机群进行监控,有可能会极大降低高性能计算机群的使用效率,浪费大量资源,这在环保被高度重视的今天是不可接受的。如何对集群系统的节点进行实施有效的监控,及时发现问题,确保系统时刻处于高效状态是每个服务器厂商在部署集群时首先要考虑的问题。
早在2006年,曙光开始着手解决机群监控管理的难题,并于当年推出了曙光的机群监控系统DCMM,帮助曙光用户解决大规模机群管理的难题。DCMM的第2代产品已经在曙光4000A中得到了有效验证。据曙光相关负责人介绍,随曙光5000A的发布,曙光即将发布其DCMM的第3代产品。
网友评论