建立业务的韧性
灾难备份是一个被IT界长期关注的话题,但是公众对于灾难备份的认知及不同企业实施灾难备份的策略却大相径庭,因为灾难备份可以是一个范畴非常广阔,但有时也被认为是非常单一的数据备份技术课题。在google中文搜索引擎中搜索,居然有55万条关于灾难备份的信息,从数量上对其热门的程度可见一斑,而精心阅读几篇文章之后,便会感到其中对灾备概念理解的参差不齐。
在这里,IBM想提请大家思考的是未来灾难备份的拓展思路?---建立业务的韧性(Resilience)。
灾难备份命题的出现是一种居安思危、未雨绸缪的表现。所谓灾难备份,是指在发生了灾难的时候,企业是否有能力使其业务可以在一定的时间内恢复运营,而IT的恢复能力是支持企业业务恢复能力中最重要的一环。什么是灾难?你可能会列出许多例子,如:海啸、地震、飓风、火灾、火山爆发、恐怖袭击、战争等等。企业的管理者很可能会对IT灾备体系的不菲投资表示反对,他们可能会错误地认为这仅仅是用来等待可能几十年、上百年也不会遇到的灾难。而对于那些日常维护业务运行的IT一线人员来讲,他们则要准备随时随地的面对影响业务运行的风险,这些风险显然不是海啸和地震,而是病毒、变更带来的安全生产风险、黑客袭击、突发的大量客户访问等等。面对这些风险,如果没有灾难备份系统的话,后果往往会变得非常严重,也经常使得一些企业主后悔莫及。
IBM非常认同一些银行界IT管理者们的观点:灾备方案犹如战争时期遍布城市地下、储存生活必需品的防空洞,在城市没有受到威胁的情况下一般不会启用,但是一旦遭到致命的攻击,它就是人们最后的救命稻草。城市如是,一个健康的企业也一样,必须要有这样的忧患意识和准备。
我参与了几家企业的灾难备份项目的方案制定及项目的实施。下面将我在灾难备份项目中的一些经验体会与大家分享:
业务运转连续性包含什么内容,常见的盲区:
通常有两种不同的说法:有人讲灾难备份,有人讲业务连续性。业务连续性涵盖面超出了IT灾备方案的范畴,它更是一个包含了保证业务连续运行的各组成环节的管理流程。有效的业务连续性应具备以下的能力:
事先有预备案,因此当业务不得已而中断时,尽量降低由此产生的风险
当发生支持业务的基础架构中断时如何尽可能的保持业务服务
灾难发生时及时向客户提供响应,维持公众的信心。满足以下需求:稽核的审查。
标准/立法的要求
保险的要求
许多的灾备方案被看成是一个技术的项目,仅仅有技术人员的介入,因此会造成项目实施后实际运行的实效性差,因为缺少业务与科技人员的有序配合。业务层面的恢复流程没有和科技技术层面的恢复流程集成。灾备方案的实施目的是在发生灾难的时候,业务可以尽快恢复运行。因此一个成功的业务连续策略需要满足重要业务流程的需求,需要业务及科技决策人的共同参与,需要超越传统的备份/恢复及灾备计划方案,将业务连续性计划的制定视同为任何新系统的设计计划的一部分,将其集成为IT变更管理流程的一部分,成为新应用开发中的一个必要的非功能性需求。
因此一个业务连续性的工程启动要先成立业务连续性项目管理办公室(BCPO)。其组成人员为:一位项目总监、几位项目经理。BCPO核心成员应成立一个永久性的部门以支持正在进行的业务连续性工作,他们是:各主要业务部人员,应用小组的代表,IT科技人员。BCPO负责开发业务连续性规划,包括以下内容:
业务连续性计划的范畴定义
工程的任务定义
关键业务功能/关键应用/业务影响分析
灾难定义――制定什么是灾难,需要启动生产切换的准则
灾难的标准
灾难的情景设定
小组划分及职责定义
业务恢复管理者/管理小组
关键经理主管人员
灾难评估小组
对外媒体联络小组
业务恢复小组
技术恢复小组
用户确认小组
设施/设备恢复小组
小组间交叉关系定义,发生灾难时详细的联络计划和机密资源需求流程
电话及联系信息
内容包括灾难预警、灾难恢复评估与决策、灾难恢复启动、灾难恢复的执行和回退业务连续性计划地维护、演习。
如何实施业务运转连续性,国内的灾备备份模式
因为中国国土的辽阔,各企业的灾备中心的拓扑制定各不相同。对于那些完成了数据中心(IT)集中整合的企业,通常灾备中心的拓扑设计如下图所示:
在同城中建立热接管的互备中心,接管的时间可以达到即时,数据丢失为零,中心之间的距离在100公里以内。在此双中心内,可以提供一个高可用系统的体系设计,防范非区域性灾难的故障:如某些硬件的故障、区域性火灾等等。实质上是实现了一个跨中心的高冗余系统设计。比如:如果系统的磁盘系统发生故障时,无需启动灾备系统,可以自动热切换到同城另一个新的磁盘系统上,业务继续运行。
网友评论