2009年3月,广州,无论是街头巷尾的市民还是各大媒体,都在纷纷扬扬的议论着近期发生的与IT相关的两件大事情。一是广州市政府电子政务IT系统大范围不能访问的故障;二是广州地铁三号线信号中央控制IT系统出现故障,致使大批乘客需要紧急疏导。
回想到近期有媒体报道,国际著名研究机构Forrest Research检验了多个重要企业级的IT应用系统的演示后发现,这些IT系统在技术上都非常先进,但它们的可用性整体上却难以令人满意。这给了IT业界一个提醒,对IT系统可用性关注不够,不但可能会严重影响企业的形象,而且还可能会给正陷于经济危机的企业雪上加霜。
两大事件敲响IT系统缺乏可用性的警钟
许多企业平时只做一些数据备份来“尽人事知天命”。其实,无论是大型企业也好、或是中小企业也好,高可用性都应该成为IT系统必备的基本条件之一,否则遭受到损害时就悔之晚矣了。
(1)IT服务缺乏可用性,严重损害声誉
随着电子商务的发展,越来越多的公司努力去满足可持续性IT服务的需求。这种需求将IT服务的可用性推向24小时×365天的完美境界。但当IT服务缺乏可用性时,就会严重的损害到组织的声誉。
2009年3月,广州市政府电子政务办事功能瘫痪逾24小时,其中包括政务服务中心、住房公积金中心、政府门户网站、政府邮件系统、互联网出口等重要系统无法使用。还有包括环保、环卫、交通、国土房管、统计、物价、财政、人事、水务、外经贸、人大、政协、中级人民法院、检察院网站等绝大部分政府职能部门的网站全部也都无法打开。据有关调查显示,此次广州政府电子政务的IT服务中断停机事件,已经严重损害政府的公众形象、挫伤政府的声誉。事实表明,平时电子政务系统可以不显山不显水的运行,一旦遭遇实际的服务中断事件,再加上各大媒体连续几天的报道,任何辩解都显得非常苍白无力,遭受声誉受损就不可避免了。
(2)IT系统缺乏可用性,生命安全难保障
随着技术的发展,IT系统的硬件、软件越来越多。系统愈复杂,则系统出故障的可能性也愈大、造成的损失也愈大。2009年3月,广州地铁公司称地铁三号线因信号中央控制IT系统出现故障,造成正在运行的部分列车不能正常运营,需要紧急疏导乘客。据地铁公司一名负责人称“以前从未发生过此类故障”。据消息称这次地铁IT系统故障的损失不但是经济上的、信誉上的,甚至还差点造成生命安全或更严重的灾难性后果。
因此,IT系统必须从根本上确保可用性,企业应当事先考虑到各种程度的风险,并采取相应的预防与保护措施,例如IT系统可用性计划与容灾恢复计划相结合就可提供更高等级的可用性。因为如果处理不当,系统可用性没有得到足够保证,那么它会带来严重后果,没有可用性作基础的IT系统可能会使到生命安全也难以得到保障。
什么是IT系统的可用性?
虽然大家已经逐渐注意到可用性的重要,在编制IT系统预算时也会或多或少提及到可用性的测试和预案,但是许多公司的CIO却还是视之为末节。当IT预算吃紧时,有关可用性的预算往往是第一个被牺牲的项目。实际上,可用性虽然不像IT系统的硬件、软件或应用程序那样显而易见,但却是整个企业IT应用的中心。
(1)什么是IT系统可用性
可用性(Usability)是指IT系统(含计算机软硬件、网络等)对用户来说有效使用和令人满意的程度,是IT系统基本核心要求之一。而高可用性的IT系统则是指能够在极短的时间内迅速恢复系统组件的故障,使IT系统能正常运作。因此,高可用性并不是一个绝对参数,它只是相对而言的。它主要是评估当一个系统组件出现故障时,IT系统大约需要多长的时间才能恢复正常运行。
因此,在可用性的考量上,“故障期时间”与“系统恢复时间”是两项最重要的指标。狭义上说,可用性指计算机系统的可靠性,即尽量缩短因日常维护操作和突发的系统崩溃所导致的停机时间。而广义上,它还包含了响应速度、服务质量以及数据安全方面的内容。随着企业信息化水平的提升,日常业务对IT系统依赖程度加剧,IT系统的可用性日益成为企业业务运营的命脉。
(2)IT系统可用性的四大内容
虽然企业开始日益重视IT系统的可用性,但在理解与实践中还是存在着一些误区与偏差。例如,将IT系统的可用性看成为IT产品质量的孤立事件,指望依赖软硬件产品质量的提升来改进系统的可用性;或缺乏明确的可用性目标,即使有也是通过将软硬件系统的可用性指标相叠加得到,而非从业务角度去设定。实际上,在造成系统停机的原因中,软硬件故障只占20%的比例,而其余的人为错误、系统架构和应用程序不当操作造成的故障所占比重高达80%。而且用户通常分不清楚什么是网络故障、服务器故障、服务故障或者是安全故障,他们只会把任何问题都看作是系统故障。
因此,IT应用成熟度各有差异,对IT系统可用性的需求层次也各有不同。一般可分为四个阶段:第一阶段的主要需求为系统级可用服务,如主机可用服务、单点故障修复等;第二阶段的需求重点在于容灾恢复,如数据备份和恢复;第三阶段的重点在于信息生命周期管理、ITSM等服务管理;第四阶段则是企业追求的是业务弹性,如SOA架构、BS7799安全标准等可用性。
(3)IT系统自身故障决定着可用性指标
对于IT系统自身而言,能不能在保证IT系统各项功能实现的同时,对系统自身运行过程中出现的各种故障,如硬件平台、软件程序和网络通信的故障进行有效的抑制、自动检测和修复,是决定系统可用性的关键因素。
(4)IT微环境对IT系统可用性的影响
IT微环境指的是每个机架中IT设备运行所依赖的环境,包含电力、空调、监控等关键元素构成。就企业现状而言,在机架中温度调节、热量管理、线缆管理等环节并没有得到足够的重视,并没有为每个机架中的IT设备提供一个理想的运行环境。例如,通常情况下机房整体和局域网的布线还算明晰,但是在机柜里和机柜间这种特定的IT微环境中,杂乱无章的线缆大大降低了机房管理人员的效率,而且一旦网络出现故障时,故障的查找与排除将成为机房管理人员的噩梦。
还有,电力供应的可用性也已经引起大多数用户的关注,许多要求IT应用不间断的行业中都配备了UPS。但却忽视了功率密度越来越高的机架内部环境也正威胁着IT系统的整体可用性,据称这次广州政府电子政务IT故障正是由于UPS引起的火灾造成的。众所周知,IT系统的稳定性除了电力因素外,最大的相关因素就是环境温度控制。事实上,温度过高是损坏系统元器件的一大杀手。传统温度控制方法是降低整个机房温度从而期望达到“冷却” IT设备的作用,但事实证明这种方法只能控制整个房间的温度,并不能保证机架中IT设备的微环境温度。
企业构建高可用性IT系统的策略
常言道,凡事预则立,不预则废。这在IT系统可用性上也同样适用。CIO要时刻记住:IT系统的目的是让人们可以利用它来处理业务问题。因此,CIO应该要充分利用IT系统的可用性技术,来保护企业用户的关键业务应用能不间断运行。
(1)制定合适的可用性目标
一个IT系统的可用性是其自身软硬件与其所处IT环境综合作用的结果。因此,IT系统的可用性也应从这两个方面去分析。为此,首先要制定IT系统可用性的目标,然后再根据可用性目标来选择自身软硬件和其所处的IT环境。
(2)减少外界环境因素的影响
提高IT系统可用性的方法与措施有很多。一般地,应根据IT系统所处环境可能会面临的具体进行分析,从而针对引起或影响系统不可靠的因素采取不同的处理措施。这些措施包括尽量减少引起系统不可靠或影响系统可靠的外界因素。例如,为了抑制电源故障而采用的UPS技术、隔离技术、屏蔽技术等,或为了保证机房温度而加设自动冷却空调等。通常这类的措施使用简单,而且效果也较好。但对系统可用性的提高也是有限的,许多情况下并不能满足IT系统高可用性的要求。
(3)提高系统预防和自动修复故障的能力
实践证明,尽量提高IT系统自身预防能力和自动修复故障的能力是一个重要的可用性措施。例如,针对系统自身故障而采用的冗余技术、备份技术等。实践经验表明,采用备份系统是提高可用性最有效的方式之一,备份系统可根据具体情况分为在线备份系统和后备备份系统。这类措施的使用可以更进一步提高系统的可靠性,往往在高可用性的系统设计中被广泛使用。
(4)制定故障应急预案
即使在设计上已经保证了系统的可靠性和可用性,并且设置了系统运行主动预警模块,但故障的出现还是不能100%避免的。因此,根据故障处理的指导原则,以最短的时间完成故障的处理和系统的恢复,就必须建立IT系统故障应急预案。包括故障点的快速确认方法、故障数据收集、处理和恢复的详细步骤,从而保证在故障处理时能够游刃有余。
网友评论