灾难让CIO措手不及 如何做恢复计划

互联网 | 编辑: 邹震 2008-04-01 00:30:00转载 返回原文

第一页

 2008年伊始,一场罕见的暴雨雪袭击了中国华南大部份地区。与此同时,大范围的雪灾大停电也让CIO措手不及,突如其来的灾难给依赖IT系统运行的企业带来毁灭性打击。

  雪灾引起的大停电灾难

  “幸运之神永远只关照那些有准备的人”,在这次大停电事件中这句话再次得到验证。“这次太惊险了!”回忆起春节前暴风雪造成的停电事故,湖南星通公司CIO陈风至今仍有些后怕。陈风非常清楚的记得一天晚上8点,他接到电话,被告知公司所在大厦的供电开始不正常,还可能会停电。听到这个消息,陈风感到有些紧张,星通公司的总部数据中心不仅存放着大量客户信息数据,而且24小时的客户服务中心也建在这里,一旦发生长时间的停电事故,全国各地分公司的联系将会中断,后果将十分严重。

  停电并不可怕,可怕的是没有应对的措施。经过短暂的商议,星通公司迅速启动了内部灾备预案:所有非24小时运行的系统暂时停止工作,包括邮件系统及非紧急的办公系统,UPS优先保证24小时业务系统正常运行,包括呼叫中心、查询系统、电话系统,这些系统一分钟都不能停。同时,陈风还通知星通公司的灾备外包商待命,随时准备切换系统。“可是,万万没有想到这一次的停电时间是这么的长,UPS顶不住了,灾备预案启动了,但却无济于事。”回想起当时的情形,陈风说,“那时,我紧张得有些慌乱,因为我们事先制定的多个预备方案,就算是更严重的灾难我们都有考虑过。但这次一切都出乎我们意料之外,完全处于失控状态”。

  推行IT灾难恢复计划为什么困难重重?

  灾难对企业而言,它的概念包括人为和自然两个方面。人为原因所造成的灾难,对企业IT系统的破坏程度绝对不亚于自然灾难,例如“911”事件曾造成1200家公司受灾,其中一半以上的企业因为IT数据损毁、丢失,导致业务无法恢复,以致于宣布倒闭。

  悲剧的诞生一方面是CIO的心存侥幸,更深层次的原因是企业内的决策系统缺乏责任认定。有关调查显示,只有6%的企业可以在数据完全丢失后生存下来;43%的公司会彻底关门;51%的公司将会在2年内消失。尽管IT灾难是小概率事件,但它一旦发生就是高风险事件,因为哪怕是1%的数据灾难也能导致100%的损失。

  事实上,目前许多企业并没有意识到IT灾难的潜伏危害性,未雨绸缪在他们的口中变成空谈,救火的英雄远比预防火灾的人更夺目。推行IT灾难恢复计划困难重重,主要是存在这几方面的误区:

  (1)灾难本身具有小概率、高风险的特性。很多企业生产任务都忙不过来,灾难也不是一定要发生的,三五年都可能不出事故,许多公司高层对IT灾难的态度是漠不关心。

  (2)IT灾难恢复具有高投入、低效率的特性。灾备系统的投入并不是小钱,在不出事故的情况下是看不出IT灾难恢复计划的效益,从而导致企业缺乏动力。

  (3)建设易、维持难。从以往的经验来看,一些灾备系统在建立的时候,积极性相当高,但建了几年后人才都走光了。因此,在没有灾难的时候这个系统除了演练、检测、维修外基本不能干些什么,久而久之IT灾难恢复计划就变成束之高阁了。

  雪灾后呼唤业务持续管理规划

  生于忧患,死于安乐。面对2008年初的这场雪灾,我们首先拷问的是CIO对大停电的各种影响有什么应急预案。CIO要想IT系统不断地稳定的运行,需要树立起危机意识:IT灾难危机是迟早都会来的。

  当灾难不可避免时,如何在灾难中快速恢复将考验每一位CIO。事实上,企业在遭遇灾难后,IT系统业务恢复的速度在一定程度上将决定企业的生死存亡,面对不堪承受的灾难后果,IT灾难恢复承载了企业的主要希望。

  业务持续管理(BCM)就是用来对付突发事件的管理方法。应急属于典型的东方思维,当人们面对灾难时,才会想起应对之道,而业务持续管理则属于典型的西方思维,它提供的是应对突发事件的解决之道。

  业务持续管理是一个整体性的管理流程与方法,主要识别公司潜在的IT灾难和相关影响,并制订一个快速恢复能力和有效反应能力的计划,从而减低非计划的突发事件给业务带来的破坏,确保关键业务的持续性。BCM包括应急管理、风险控制、灾难技术恢复。BCM可分为几个层面:①从被动到主动再到未雨绸缪;②从技术恢复、数据恢复到业务接续、业务恢复再到业务持续;③从技术经济评价到未来影响评估;④从选择性措施到必备经营战略再到法规合规性。

  第二页业务持续管理重要内容:容灾系统

  当被问及对IT灾难系统的认识时,星通公司CIO陈风曾经这样说道:“如果不遇上什么特大的自然灾害,容灾系统还能有什么用?平时为了数据安全,我们都会拿块硬盘备份一下。”拥有了容灾数据备份,就能保证数据的安全了吗?不少企业对待容灾备份采取敷衍的态度,以为做了备份便可保证数据安全,而没有根据需要对备份方案的数据保护能力进行完整评估,更没有定期予以强化及修补,这样的备份方案是不足以提供充足的保护能力。

  IT容灾系统,顾名思义就是对可能被灾难破坏的数据、数据处理系统、网络系统、基础设施及运行管理能力备份的过程。不过,容灾备份并非灾难恢复的全部,它更重要的内涵是恢复企业的业务。一般灾难可分为突发性和渐进性两大类,企业需要考虑要预防哪些灾难,这些灾难会使业务中断多久等。灾难备份系统的目标是要在灾难发生时保证数据的完整性、一致性和可靠性。不同类型灾难的保护方法是不一样的:对于渐进性灾难,应用数据复制加数据备份组合技术;而对于突发性灾难,在业务不能停顿的情况下需要复制技术来保护。

  CIO需要认识到数据保护并不仅仅是数据备份,数据保护和灾难恢复意味着需要了解不少事情。例如,当故障发生时,CIO需要能够找到软件的许可,如何快速更换硬件,如何同设备的厂家联系等等。业务连续性及其容灾系统包括这几个方面:①针对目前系统潜在的中断风险(灾难)提供预防机制,提高系统连续运行能力。②对无法抗拒的严重灾难,提供系统恢复机制,将引发的业务损失降低到可接受的程度。③实现关键业务系统及其关联系统的数据安全。④将异地中心接管业务的时间控制在可以接受的范围内。

  因此,一个完整的IT容灾系统应该包括本地数据备份、远程数据复制和异地备份,采用多种技术手段进行快速业务恢复,充分体现容灾系统的冗余性、长距离性及数据高可用性等特征。

  IT灾难恢复计划,岂能光建不练?

  “如果没有灾备中心,出了问题还可以将责任分担;如果有了灾备系统却启动不了,IT部门的压力会大很多。”陈风心有感触的说道:“未经测试的灾难恢复计划是无效的!”。目前,许多企业在IT灾难恢复计划除了盲目建设外,更严重的问题是缺乏演练。

  IT灾难恢复计划是为了减少灾难带来的损失,和保证IT系统所支持的关键业务能在灾难发生后,及时恢复和继续运作所作的事前计划和安排。灾难恢复系统只在灾难发生时才会考虑启用,在企业日常运营中并不投入使用。因此,即使有问题不能使用也不会立即暴露出来,正是这个原因,演练才显得特别重要。

  制定好IT灾难恢复计划后,并不是万事大吉束之高阁,不经过演练的计划无异于纸上谈兵。很多企业没有意识到这一点,企业往往花费了大量的人力和物力制定了IT灾难恢复系统,以为万事大吉了。殊不知,在IT灾难状态下这些措施并不一定有效。讲演就是通过演练得来,不做演练就得不到经验。所以,演练非常重要。

  为什么会出现光建不练这种奇怪的现象呢?有业内人士曾一语道破天机,不少CIO在系统建设时就不怎么规范,日常管理维护也不到位,灾难恢复系统形同虚设。因此,必须规范IT灾难恢复系统的建设和维护,才不会出现光建不练的怪现象。

返回原文

本文导航

相关阅读

每日精选

点击查看更多

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑