监控随心所欲 初探曙光DCMM2监控系统

互联网 | 编辑: 杨雪姣 2008-09-04 17:30:00转载-投稿 返回原文

第一页

国内信息产业的高速发展,极大加速了服务器的应用规模,机群也已经走下象牙塔,被越来越多的行业所接受。随着机群系统的发展,机群的规模越来越大。当机群的节点数达到几百个以上时,由于机群系统结构松散、结点独立性强、网络连接复杂,造成机群系统管理不便,难以使用。我们有时候听说企业的高性能计算机群中个别服务器死机后2-3个月才被发现,可能我们很多人会把这当作笑话,但这实际应用中却屡见不鲜。

如果没有一套很好的系统对机群进行监控,有可能会极大降低高性能计算机群的使用效率,浪费大量资源,这在环保被高度重视的今天是不可接受的。如何对集群系统的节点进行实施有效的监控,及时发现问题,确保系统时刻处于高效状态是每个服务器厂商在部署集群时首先要考虑的问题。

早在2006年,曙光开始着手解决机群监控管理的难题,并于当年推出了曙光的机群监控系统DCMM,帮助曙光用户解决大规模机群管理的难题。DCMM的第2代产品已经在曙光4000A中得到了有效验证。据曙光相关负责人介绍,随曙光5000A的发布,曙光即将发布其DCMM的第3代产品。

第二页

曙光DCMM通过软/硬件结合的方式监控整个集群服务器的软硬件运行环境与状态,如各节点网络流量、CPU和内存的使用率,各节点的主板温度与CPU温度,机箱风扇转速与CPU风扇转速,主板电压与CPU电压等等,使系统管理员对全体节点的情况一目了然。同时DCMM还可以针对部分交换机和曙光磁盘阵列等其他设备的实时信息监控,进行全面监控,一网打尽。其安装于机柜前方的显示屏可以所有状态直观的显示在机群的触摸屏上,帮助用户对机群进行管理。

曙光DCMM同时提供报警功能,当出现故障点时(如温度异常、风扇停止转动等),或超过预值时,通过声响和界面列表、弹出窗口、邮件报警等方式向系统管理员报警,及时提醒系统管理员进行处理,避免或减少系统故障和由其引起的用户损失。系统规模越大,系统管理和监控的效率越高。

曙光DCMM可以对任意节点进行开机,重启(冷启动),自动顺序开机等日常工作,使系统管理员可以在控制室监视整个机群系统的运行情况并可以对最大1024节点中的任意一台节点进行类似本地的操作,而不需要进入机房。曙光DCMM还支持远程访问,管理员可以通过Modem远程拨号对机群系统进行监控和管理。

曙光DCMM由于使用数据库存储监控的信息,能够提供历史数据供技术人员分析和查询,便于管理员调整设备检修时间,错过系统使用的高峰期。

曙光DCMM系统的节点端软件有Window操作系统和Linux操作系统两种不同版本,为客户考虑周全。

信息是一种重要的商业资产已经成为广大企业的共识,如何保证信息的安全,确保系统的稳定是每个企业在信息化进程中首要考虑的问题,曙光DCMM监控系统的将为广大企业打开一扇希望之窗!

返回原文

本文导航

相关阅读

每日精选

点击查看更多

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑