建立业务的韧性
灾难备份是一个被IT界长期关注的话题,但是公众对于灾难备份的认知及不同企业实施灾难备份的策略却大相径庭,因为灾难备份可以是一个范畴非常广阔,但有时也被认为是非常单一的数据备份技术课题。在google中文搜索引擎中搜索,居然有55万条关于灾难备份的信息,从数量上对其热门的程度可见一斑,而精心阅读几篇文章之后,便会感到其中对灾备概念理解的参差不齐。
在这里,IBM想提请大家思考的是未来灾难备份的拓展思路?---建立业务的韧性(Resilience)。
灾难备份命题的出现是一种居安思危、未雨绸缪的表现。所谓灾难备份,是指在发生了灾难的时候,企业是否有能力使其业务可以在一定的时间内恢复运营,而IT的恢复能力是支持企业业务恢复能力中最重要的一环。什么是灾难?你可能会列出许多例子,如:海啸、地震、飓风、火灾、火山爆发、恐怖袭击、战争等等。企业的管理者很可能会对IT灾备体系的不菲投资表示反对,他们可能会错误地认为这仅仅是用来等待可能几十年、上百年也不会遇到的灾难。而对于那些日常维护业务运行的IT一线人员来讲,他们则要准备随时随地的面对影响业务运行的风险,这些风险显然不是海啸和地震,而是病毒、变更带来的安全生产风险、黑客袭击、突发的大量客户访问等等。面对这些风险,如果没有灾难备份系统的话,后果往往会变得非常严重,也经常使得一些企业主后悔莫及。
IBM非常认同一些银行界IT管理者们的观点:灾备方案犹如战争时期遍布城市地下、储存生活必需品的防空洞,在城市没有受到威胁的情况下一般不会启用,但是一旦遭到致命的攻击,它就是人们最后的救命稻草。城市如是,一个健康的企业也一样,必须要有这样的忧患意识和准备。
我参与了几家企业的灾难备份项目的方案制定及项目的实施。下面将我在灾难备份项目中的一些经验体会与大家分享:
业务运转连续性包含什么内容,常见的盲区:
通常有两种不同的说法:有人讲灾难备份,有人讲业务连续性。业务连续性涵盖面超出了IT灾备方案的范畴,它更是一个包含了保证业务连续运行的各组成环节的管理流程。有效的业务连续性应具备以下的能力:
事先有预备案,因此当业务不得已而中断时,尽量降低由此产生的风险
当发生支持业务的基础架构中断时如何尽可能的保持业务服务
灾难发生时及时向客户提供响应,维持公众的信心。满足以下需求:稽核的审查。
标准/立法的要求
保险的要求
许多的灾备方案被看成是一个技术的项目,仅仅有技术人员的介入,因此会造成项目实施后实际运行的实效性差,因为缺少业务与科技人员的有序配合。业务层面的恢复流程没有和科技技术层面的恢复流程集成。灾备方案的实施目的是在发生灾难的时候,业务可以尽快恢复运行。因此一个成功的业务连续策略需要满足重要业务流程的需求,需要业务及科技决策人的共同参与,需要超越传统的备份/恢复及灾备计划方案,将业务连续性计划的制定视同为任何新系统的设计计划的一部分,将其集成为IT变更管理流程的一部分,成为新应用开发中的一个必要的非功能性需求。
因此一个业务连续性的工程启动要先成立业务连续性项目管理办公室(BCPO)。其组成人员为:一位项目总监、几位项目经理。BCPO核心成员应成立一个永久性的部门以支持正在进行的业务连续性工作,他们是:各主要业务部人员,应用小组的代表,IT科技人员。BCPO负责开发业务连续性规划,包括以下内容:
业务连续性计划的范畴定义
工程的任务定义
关键业务功能/关键应用/业务影响分析
灾难定义――制定什么是灾难,需要启动生产切换的准则
灾难的标准
灾难的情景设定
小组划分及职责定义
业务恢复管理者/管理小组
关键经理主管人员
灾难评估小组
对外媒体联络小组
业务恢复小组
技术恢复小组
用户确认小组
设施/设备恢复小组
小组间交叉关系定义,发生灾难时详细的联络计划和机密资源需求流程
电话及联系信息
内容包括灾难预警、灾难恢复评估与决策、灾难恢复启动、灾难恢复的执行和回退业务连续性计划地维护、演习。
如何实施业务运转连续性,国内的灾备备份模式
因为中国国土的辽阔,各企业的灾备中心的拓扑制定各不相同。对于那些完成了数据中心(IT)集中整合的企业,通常灾备中心的拓扑设计如下图所示:
在同城中建立热接管的互备中心,接管的时间可以达到即时,数据丢失为零,中心之间的距离在100公里以内。在此双中心内,可以提供一个高可用系统的体系设计,防范非区域性灾难的故障:如某些硬件的故障、区域性火灾等等。实质上是实现了一个跨中心的高冗余系统设计。比如:如果系统的磁盘系统发生故障时,无需启动灾备系统,可以自动热切换到同城另一个新的磁盘系统上,业务继续运行。
建立业务的韧性六原则
在跨城市、远距离之间的中心建立异步的灾难备份中心,以防范区域性灾难。此两中心之间的距离可以是几千公里以上,数据的复制技术是异步的,加上应用系统层面的自动化管理,系统的接管可以做到绝大部分的自动化,减少人为的操作错误,尤其是在灾难发生时,无法保证了解系统的技术人员一定可以到现场进行恢复操作。因此在灾备方案设计及实施中,是否可以做到极大化的系统操作自动化是一个非常重要的考量方面。
IBM服务部门有着丰富的灾备项目实施经验,以下是IBM服务部门建立业务连续性方案的方法论,起步于对企业所面临的风险分析,风险对于业务可能带来的影响分析,当前现状的分析,从而可以制定合理的业务恢复目标及策略。在业务恢复的指标中:RPO(数据丢失量,通常以秒计算)、RTO(系统恢复时间)、NTO(网络恢复时间)及业务的恢复范围(比如优先恢复那些业务的服务,以银行为例:恢复柜面业务、POS、ATM业务等等)是最重要的指标,它是连接技术方案选型及业务服务恢复承诺目标之间的关键可衡量的指标,并且决定性地影响着实施此方案的投资额度。
任何一个工程的实施都不会是千篇一律的。在此仅列出一个灾备工程的高层面项目实施步骤。仅供参考。
如何维护业务运转连续性
完成了业务连续性方案的实施,并不意味着业务连续性计划将保持一成不变。如果业务连续性计划被束之高阁,一旦启动,我们无从知晓灾备方案是否可以达到预期的战略及战术效果。随着新的市场,新的行业规则的出现;技术的革新,新的认证标准及新的业务模式的出现;公司经营方针、目标的改变,公司的重组及收购;新的法律条款的出现;在不断的实践中方案可能逐步暴露出其缺陷、弱点;以上所有的情形均要求对灾备方案进行不停的维护、测试及演练。制定常规的灾备恢复演练计划是非常必要的。演练的频率、范围均因企业的不同而不同。一般在银行界,一年至少进行一次全面的业务层面的演练,数次系统层面、网络层面及应用层面的演练,以确保恢复流程的时效性、实效性和可行性,以及技术方案的正确性。
建立业务的韧性(resilience )--- 灾难备份概念的拓展
随时随地的面对着诸多的非区域性自然灾难的不安全生产因素的困扰,我们怎么办来确保企业的安全运营?这就是为什么当前业界引入业务的韧性(Resilience)的观念及解决方案。
IBM确定了对于建立成功的业务韧性策略的六条必要的基本规则:
整合的风险管理:这里突出的是“整合”。没有一个全面的对业务风险的了解,则无法准备好来应对可能出现的问题。找出业务运营中的风险并运用相关技术对其进行认知,响应和管理。
业务运转的连续性:这就是我们常常说的运用从业务级到IT的灾备方案来提供业务的连续运转的能力。当发生宕机事故时,如何通过流程,即及时响应的、高可用的、高可扩展的系统基础架构来维持业务系统的持续性运转。
规章制度的服从:当中国加入世贸组织时,企业除了要了解国内业界监管机制的政策、策略、制度的要求外,还要充分认知世界范围业界的规章制度,服从现有政府和业界的规章制度和标准,特别是有关信息的完整性和可用性方面。
安全、隐私和数据保护:通过正确的策略、方法、工具以及统一的监管来确保数据、信息、系统以及人员的安全性和隐私性。
知识、专业和技能:为确保业务运行具有相应的韧性,则必须确保可以在正确的时间和地点具有恰当的人力资源。仅仅建设一些基础结构来实施灾备,而不配和人力资源的恢复计划,则依然无法提供业务的连续运转。
应对市场的动态变化:提高对快速变化的客户需求和新的市场机遇的敏感程度以及响应速度。建立具有弹性的基础架构体系,以响应动态及快速的市场要求。
风险管理是一个具有恢复能力企业的重要基础组成部分之一。对于那些已经认识到并实施了灾难备份方案的企业,是时机进行全面业务韧性的建设了。业务的可恢复性整合了IT的可恢复性、高可用性、业务连续性以及信息安全项目,它同时也解决了管理,特别是规章制度的服从方面的问题。
IBM认为:通过具韧性的、灵活的基础架构支撑的具有恢复能力的业务系统,可以帮助企业的业务系统适应各种破坏以及灾难所带来的挑战,同时能实时响应新机遇和新变化,从而确保企业业务的持续运转。
网友评论