第一页
2008年伊始,一场罕见的暴雨雪袭击了中国华南大部份地区。与此同时,大范围的雪灾大停电也让CIO措手不及,突如其来的灾难给依赖IT系统运行的企业带来毁灭性打击。
雪灾引起的大停电灾难
“幸运之神永远只关照那些有准备的人”,在这次大停电事件中这句话再次得到验证。“这次太惊险了!”回忆起春节前暴风雪造成的停电事故,湖南星通公司CIO陈风至今仍有些后怕。陈风非常清楚的记得一天晚上8点,他接到电话,被告知公司所在大厦的供电开始不正常,还可能会停电。听到这个消息,陈风感到有些紧张,星通公司的总部数据中心不仅存放着大量客户信息数据,而且24小时的客户服务中心也建在这里,一旦发生长时间的停电事故,全国各地分公司的联系将会中断,后果将十分严重。
停电并不可怕,可怕的是没有应对的措施。经过短暂的商议,星通公司迅速启动了内部灾备预案:所有非24小时运行的系统暂时停止工作,包括邮件系统及非紧急的办公系统,UPS优先保证24小时业务系统正常运行,包括呼叫中心、查询系统、电话系统,这些系统一分钟都不能停。同时,陈风还通知星通公司的灾备外包商待命,随时准备切换系统。“可是,万万没有想到这一次的停电时间是这么的长,UPS顶不住了,灾备预案启动了,但却无济于事。”回想起当时的情形,陈风说,“那时,我紧张得有些慌乱,因为我们事先制定的多个预备方案,就算是更严重的灾难我们都有考虑过。但这次一切都出乎我们意料之外,完全处于失控状态”。
推行IT灾难恢复计划为什么困难重重?
灾难对企业而言,它的概念包括人为和自然两个方面。人为原因所造成的灾难,对企业IT系统的破坏程度绝对不亚于自然灾难,例如“911”事件曾造成1200家公司受灾,其中一半以上的企业因为IT数据损毁、丢失,导致业务无法恢复,以致于宣布倒闭。
悲剧的诞生一方面是CIO的心存侥幸,更深层次的原因是企业内的决策系统缺乏责任认定。有关调查显示,只有6%的企业可以在数据完全丢失后生存下来;43%的公司会彻底关门;51%的公司将会在2年内消失。尽管IT灾难是小概率事件,但它一旦发生就是高风险事件,因为哪怕是1%的数据灾难也能导致100%的损失。
事实上,目前许多企业并没有意识到IT灾难的潜伏危害性,未雨绸缪在他们的口中变成空谈,救火的英雄远比预防火灾的人更夺目。推行IT灾难恢复计划困难重重,主要是存在这几方面的误区:
(1)灾难本身具有小概率、高风险的特性。很多企业生产任务都忙不过来,灾难也不是一定要发生的,三五年都可能不出事故,许多公司高层对IT灾难的态度是漠不关心。
(2)IT灾难恢复具有高投入、低效率的特性。灾备系统的投入并不是小钱,在不出事故的情况下是看不出IT灾难恢复计划的效益,从而导致企业缺乏动力。
(3)建设易、维持难。从以往的经验来看,一些灾备系统在建立的时候,积极性相当高,但建了几年后人才都走光了。因此,在没有灾难的时候这个系统除了演练、检测、维修外基本不能干些什么,久而久之IT灾难恢复计划就变成束之高阁了。
雪灾后呼唤业务持续管理规划
生于忧患,死于安乐。面对2008年初的这场雪灾,我们首先拷问的是CIO对大停电的各种影响有什么应急预案。CIO要想IT系统不断地稳定的运行,需要树立起危机意识:IT灾难危机是迟早都会来的。
当灾难不可避免时,如何在灾难中快速恢复将考验每一位CIO。事实上,企业在遭遇灾难后,IT系统业务恢复的速度在一定程度上将决定企业的生死存亡,面对不堪承受的灾难后果,IT灾难恢复承载了企业的主要希望。
业务持续管理(BCM)就是用来对付突发事件的管理方法。应急属于典型的东方思维,当人们面对灾难时,才会想起应对之道,而业务持续管理则属于典型的西方思维,它提供的是应对突发事件的解决之道。
业务持续管理是一个整体性的管理流程与方法,主要识别公司潜在的IT灾难和相关影响,并制订一个快速恢复能力和有效反应能力的计划,从而减低非计划的突发事件给业务带来的破坏,确保关键业务的持续性。BCM包括应急管理、风险控制、灾难技术恢复。BCM可分为几个层面:①从被动到主动再到未雨绸缪;②从技术恢复、数据恢复到业务接续、业务恢复再到业务持续;③从技术经济评价到未来影响评估;④从选择性措施到必备经营战略再到法规合规性。
网友评论