在多年的网络管理软件开发和项目实施中,我接触了许多的一线工程师,并专门拿出时间和这些每天出入在机房的工程师沟通,收集他们在管理工作中遇到的实际需求,专注于将令其“头痛”的问题通过SiteView集中解决。
针对各种悬在头顶的难题,我总结出了网络管理七大实战兵法,希望可以给您一些启发。
第一计:重中之重——关键业务流程
需要监测的关键业务流程包括:1、单位内部的关键业务流程。如项目管理信息系统、生产管理信息系统等。2、网络吞吐量大的业务流程。主要是一些复杂和交互式的业务流程,资金集中管理系统、公文流转系统等。3、对系统造成大的压力,频繁使用数据库的业务流程。4、同其它系统集成的业务流程,这些集成会提高应用失败的风险。
这些业务系统庞大而牵涉面众多,需要一个综合业务管理平台进行整体的监测整合。好的解决方案是引进网管系统,对业务系统是否正常运行、各项具体参数指标是否超标等进行精确掌控,避免或降低业务系统故障的发生率。
第二计:用户体验同系统性能指标相关联
在制定监控策略时,应该考虑将网络中的所有网络基础架构都进行集中监测,包括对数据库服务器、应用服务器、路由器、交换机、防火墙的监控,从而判断哪里出了问题导致公司网络畅通运行。信息服务管理网的网管工程师通过使用SiteView网管工具收集网络运行信息,将性能数据同单位内部用户的体验相结合来分析网络的性能状况,诊断系统瓶颈。
第三计:建立网络运行基准指标并观察趋势
长期监测并建立基准指标对于保持网络和性能的正常性能水平是非常必要的。通过对网络运行的观察,运维工程师可以知道网络性能的变化和流量等指标的运行趋势;及时发现网络偏离系统基准模型时的异常状况,分析是单一故障,还是严重问题的前兆,达到预警的目的,防止更严重问题的发生。
第四计:设计报警策略,避免警报泛滥
报警是管理网络和业务系统最重要的功能之一,配置报警的依据是根据信息服务管理网的网络运维目标,报警设置的原则:1、对影响网络和业务的重要指标设置报警;2、消除误报和重复报警;3、报警应该以多种方式及时发送给相应的运维工程师。
第五计:创建自动化、规范化事件处理程序
信息服务管理网运维工程师人员少,日常处理事务较多,他们需要在网络、链路和系统运行出现问题时能够有自动化、规范化的处理问题程序,快速处理各种潜在故障并且分配他们到合适的管理工程师,帮助他们提高工作效率。建立规范事件处理程序的另一个好处,是将工程师长期积累的知识和工作经验系统化和固化,达到快速定位故障的目的。
第六计:网络服务质量SLA的量化管理
提高服务质量的第一步是设立量化指标,将其作为整个网络运维管理团队的整体目标。信息服务管理网网络性能管理的总体目标包括网络和设备、业务的可用性、网络的吞吐量、带宽使用百分比、网络延时、CPU和MEMORY的负载,对于不同的网络指标还要根据网络的上下级连接关系分解到每一个子指标,作为对网络故障诊断和性能管理的依据。
第七计:制定网络的升级和改进策略
网络的升级和改进应该以对现有网络和系统性能数据的测量为前提,以对网络整体运行的现状及趋势分析为依据。通过对单一网络系统和整体网络系统性能数据的比较、单一网络组件和其它网络组件的数据比较、系统负载量最大时的性能数据和一般负载时的性能数据的比较等,判断是否需要对系统的局部或者整体进行升级,发现网络系统性能的瓶颈,提出网络系统改进的方法。
网友评论