电子商务致胜之选 - 灾难恢复存储解决方案

互联网 | 编辑: 2006-03-13 16:49:00转载

为什么您需要灾难恢复计划?

     当企业越来越依赖于数据去进行处理它的商业行为以及由此来保证它在业界的竞争力的时候,数据处理的高可靠性和高可用性就尤为关键。一个计算机系统的长期停止将直接导致明显的财务流失,更为重要的是,您将失去客户的信任以及一系列的企业赖以生存发展的市场,在一些情况下,数据的丢失甚至将会导致整个企业的失败。
     据一项美国的研究报告显示,在灾害之后,如果无法在 21 天内恢复资讯作业,有 75% 的公司业务会完全停顿,43% 的公司再也无法重新开业,因而有 20% 的企业在两年之内被迫宣告破产。美国 Minnesota 大学的研究表明,遭遇灾难的同时又没有灾难恢复计划的企业,超过 60% 以上企业在的两到三年后将退出市场,随着企业对数据处理依赖程度的递增,此比例还有上升的趋势。因此,在限定的时间内成功的灾难恢复将应该是一个企业战略计划中的一个关键组成部分。
IBM S/390 业务恢复存储解决方案
     由于应用的可用性和灾难恢复能力越来越被看重,越来越多的公司开始采用双站点策略。IBM 被称为地理分散并行系统(Geographically Dispersed Parallel Sysplex ,GDPS)的 S/390 多站点应用可用性解决方案,将 S/390 并行 Sysplex 技术与远程拷贝技术集成在一起,能够提高应用的可用性和灾难恢复能力。
IBM 的存储系统部在 1994 年推出了两种远程拷贝功能,一种被称为 PPRC(Peer-to-Peer Remote Copy,对等远程拷贝),一种被称为 XRC(Extended Remote Copy,扩展远程拷贝),并在 1995 年投入应用。1996 年,所有 IBM 3990 存储控制家族产品的先前型号都被具有远程拷贝功能的型号6替代。
对等远程拷贝(PPRC)功能现在被所有主要的 S/390 存储供应商视为 S/390 Sysplex 灾难恢复领域的前途所在。PPRC 和增强 OS/390 以及地理分散并行 Sysplex (GDPS) 一道,成为业界高可用性解决方案的领导者。最近的 Gartner 分析表明,并行 Sysplex 解决方案每年平均停机时间少于 10 分钟。
GDPS 是一种多站点应用可用性解决方案,具有管理远程拷贝配置和存储子系统、自动执行并行 Sysplex 操作任务、从单一控制点执行故障恢复等功能,从而达到了提高应用可用性的目的。通过 GDPS 和 PPRC,IBM 使灾难发生后进行恢复的时间缩减到以分钟计算。
     除非特殊说明,下文叙述的所有解决方案都假设主站点和恢复站点之间通过企业系统连接(ESCON)一类的宽带连接互连。
备份和恢复
     在所有的 IT资 源中,数据最重要,但也最不稳定最复杂。其他资源,如处理能力、供应商提供的软件、DASD、存储设备、建筑物等,都是最终可替换的,但大部分数据却是不可替换的。而数据对商业活动来说是最重要的。在这里我们将讨论适用于灾难恢复的不同 IBM 产品,它们能够进行不同类型的数据管理,设置不同的数据备份选项。本部分主要叙述用于灾难恢复的功能,但并没有覆盖这些产品所有的可用功能。

远程拷贝
    当某一应用站点停机时,IBM 的远程拷贝功能能够进行快速有效的灾难恢复。该功能能够在远程站点实时维护数据的镜像拷贝,并确保以与主站点完全相同的次序在远程站点进行数据写入更新的远程复制。这一解决方案在远程拷贝控制机制下自动对 DASD 卷上的数据进行跟踪。这种跟踪的发生独立于使用这些数据的应用。因此,来自不同应用的独立远程拷贝功能是不需要的。
     应用的性能保护、数据当前值选项和数据独立都是 IBM 远程拷贝设计中的组成部分。远程拷贝方法有以下不同的两种:
对等远程拷贝(PPRC)
扩展远程拷贝(XRC)
     PPRC 和 XRC 都试图通过维护 DSAD 卷间的实时拷贝来达到数据保护的目的。远程拷贝超出了狭隘意义上的双重拷贝,因为它允许副卷存储在远地点上。双重拷贝的主要用途是保护数据不受设备失效的损害,而远程拷贝的目的要更加广泛。
对等远程拷贝 (PPRC)
     PPRC 提供的灾难恢复能够最大限度地保留数据当前值。如果您属于以下的情况,PPRC 将能够很好地适合您的需要:
    避免数据丢失是您最优先的考虑
    您的运行站点和恢复站点之间的距离不超过 103 公里
    您的工作负载和要求能够承受同步拷贝带来的性能损失
     PPRC 提供有助于保留数据当前值和完整性的两类选择。一个选择是将卷标记为"关键",保证在副卷不能更新时,原有的更新也将无效,不论卷是处于同步状态还是非同步状态,甚至是在灾难出现时也如此。这一功能通过 APAR 提供,在写入时被设置为可用。
     第二个选择是使用最近被改进的系统错误恢复程序(Error Recovery Procedure,ERP)。当发生问题时,ERP 在向主机返回完成状态之前记录错误信息,在远程站点上将配置这些记录的一个拷贝,从而即使在灾难过程中也能够连续提供哪些卷处于同步状态和哪些卷没有处于同步状态这样的信息,这一功能通过 APAR 提供。
     PPRC 对于 VSE 用户来说也是一种理想的灾难恢复解决方案选择。通过使用 ICKDSF 命令接口可以很容易地建立 PPRC 路径和 PPRC 对。VSE 环境下的 PPRC 功能与 OS/390 环境下类似,只是 VSE 用户使用 ICKDSF 命令接口而 OS/390 用户使用 TSO/E 命令接口。
     OS/390 环境下运行的 PPRC 还能够与一种被称为对等动态地址交换(Peer-to-peer Dynamic Address Switching ,P/DAS) 的新功能共同工作。P/DAS 实现的技术使应用系统能够在不损害 PPRC 用于副卷访问的严格数据完整性标准的情况下,不必通过应用的中止和重启动就可以访问副卷。此外,P/DAS 在预期将发生负载转移和子系统维护时能够促进 PPRC 跟踪方向的自动反转。
     在以前的 P/DAS 实现方法中,SWAP 命令的第一地址是在一个 PPRC 主卷上,第二地址在相应的副卷上。在 ESS 系统中将不再要求这两个卷构成一个活动 PPRC 对,您可以交换 ESS 系统中的任意卷对,前提是必须能够确保所交换的卷是一致的。
     通过 IBM ESS 系统,PPRC 可以建立在 LUN 基础之上。与其他 PPRC 实现方法一样,PPRC 只能建立在相同类型的存储控制单元之间。与其他型号 IBM DASD 控制器上实现的 PPRC 相比,通过 ESCON 连接的两个 ESS 控制单元之间的通信性能可以有更大的提高。ESCON 协议是经过改进的,信号交换较少,两个 ESS 之间可以传输更大的 ESCON 帧。这些提高使两个 ESS 之间的距离在使用多模到单模的 ESCON 转换器和放大器的情况下可以扩展到 103 公里。以下是一个配置实例:
     扩展远程拷贝 (XRC)
     扩展远程拷贝(XRC)是一种异步拷贝功能,在正常运行期间对大多数应用性能的影响最小。XRC 在远程恢复站点为您的运行数据创建一个副本拷贝。
     如果您属于以下的情况,XRC 对您将是比较适合的:
     应用在正常操作过程中的性能是您最优先考虑的对象可以接受副站点数据当前值更新的较小延迟如果您的运行站点和恢复站点之间的距离超过 103 公里或出现 "线路" 问题,您可以使用 CNT CopyXpress 或其他信道扩展器使您的 XRC 解决方案通过电信线路得到扩展。由于 XRC 需要 OS/390 的系统数据移动器(System Data Mover, SDM),因此,它只能在 OS/390 环境下工作。
     为确保数据完整性,Data Mover 的设计使其能够以主站点上相同的顺序在远程站点上进行数据的更新。对于远程拷贝数据会在某些存储控制器上展开的情况,这一功能将是特别重要的。
     以上两种解决方案在远程拷贝机制下都能够对 DASD 卷上的数据进行自动跟踪。跟踪的进行与使用数据的应用相互独立。因此,来自不同应用的分散的远程拷贝功能是不需要的。一旦对某一卷建立了远程拷贝,远程拷贝的运行将是透明的。当数据写入主 DSAD 时,无须应用用户的任何干预,这些数据就会被拷贝到远程 DSAD 中。
     PPRC 和 XRC 不同之处在于以下几个方面:对 DSAD I/O 性能的影响、灾难发生时数据当前值的最新程度、系统资源的占用、操作距离和运行控制。
     ESS 支持某些硬件辅助的拷贝功能的目的有两个:为能够提供数据即时拷贝的灾难恢复解决方案和拷贝功能提供镜像操作功能。IBM TotalStorage Expert ESS 专家拷贝服务 Web 浏览器接口提供了一种任何环境下建立和管理 PPRC 的方法。它为使用控制面板建立图形视图任务的用户进行操作管理提供了一种有组织的方法。
并发拷贝功能 (Concurrent Copy)
     并发拷贝是改进后的 DFSMS/MVS 和 IBM S1390 型号 3 以及型号 6 所提供的一种功能。RAMAC 虚拟阵列(RAMAC Virtual Array ,RVA)和企业存储服务器(企业存储服务器 ,ESS) 成为 IBM S1390 系列当然的后续产品。
     并发拷贝允许对数据进行 "时间点" 性质的拷贝,而这些数据可同时被更新。只有提出拷贝请求时数据库的更新才必须被停止(停止的时间长度以秒计)。一旦请求被接受,更新可以被恢复,并发拷贝将创建一个拷贝请求发出时的数据拷贝。这一功能大大减少了数据库进行备份拷贝所引致的不可使用时间。在很多情况下,节约的时间要以小时计,而且并发拷贝大大增加了 OS/390 环境下在线操作和批处理的时序安排灵活性。
     在并发拷贝出现之前,物理和逻辑信息转储之间常常需要进行交替换位。在转储过程中,数据对其他应用来说是不可用的。物理转储进行的速度较快,但必须被恢复到一个相似的设备上。因为每天晚上都要进行转储,而恢复并不经常进行,所以总的来说物理转储可以减少停机时间。
     并发拷贝出现后,规则就被改变了。对于并发拷贝转储来说,只有并发拷贝转储请求被接受时,数据才是不可用的。在实际转储过程中,数据都是可用的。在使用并发拷贝的情况下,逻辑转储具有与物理转储一样的数据可用性;不使用并发拷贝时,逻辑转储在数据可用性方面比物理转储要好。
     DFSMSdss 也提供了并发拷贝功能。这一功能由 DFSMSdss 控制语句中嵌入的 CONCURRENT 参数调用。DFSMSdss 可以作为一个正常的任务步骤被调用,也可以被使用 DFSMSdss API 的程序调用。大多数并发拷贝工作并不由 DFSMSdss 执行,而是由作为 DFSMS/MVS 组件的系统数据移动器 (SDM) 执行。当收到一个通过 DFSMSdss 产生的拷贝请求时,SDM 对环境进行初始化,为拷贝作好准备,并通知 IBM DASD 控制器将被拷贝的数据的范围。
      环境初始化完成后,拷贝开始,数据更新重新恢复。如果正在被拷贝的数据需要被更新,或被更新的数据还没有被拷贝,这些数据就被拷贝到 IBM DASD 控制器高速缓存中的 sidefile 中,更新工作将继续进行直至完成。为使对高速缓存的占用最小,数据将由高速缓存的 sidefile 转移到 MVS 的数据空间 sidefile 中。在拷贝数据时,DFSMSdss 在(存入)磁盘前不断检索sidefile,因此,备份中并不包含拷贝请求被接受以后所发生的任何数据更新。
     ESS 中并发拷贝的工作方式与其在 IBM S1390-6 中的工作方式一样。并发拷贝由 DFDSS 中包含的CONCURRENT 关键字发起,或由将 DFSMSdss 作为拷贝程序并对其进行内部调用的应用发起。


快速拷贝 (Flash Copy)
     ESS 提供的快速拷贝功能使计算中心能够在几秒钟内为一个逻辑卷或数据集创建一个拷贝。由于创建数据的快速拷贝仅需要几秒钟的时间,所以您的应用只须中断很短的时间。在此之后,您的应用将继续运行。快速拷贝所拥有的独特功能使计算中心能够随意安排运行数据集的备份,从而在灾难发生时能够提供数据的快速恢复。
     快速拷贝只能用于磁盘卷之间,它要求目标卷与源卷处于同一个逻辑子系统中。当拷贝操作建立时,目标卷与源卷之间将建立一种关联。这一关联建立后,卷拷贝将能够被访问,一个后台作业将复制所有由源卷拷贝到目标卷的磁道。如果 ESS IBM TotalStorage Expert 专家拷贝服务建立了一个快速拷贝过程,您可以使用 NOCOPY 选项来禁止这一后台拷贝任务。如果您仅在短时期内需要拷贝功能,那么以上功能就用得上了。
快速拷贝可以通过 OS/390 拷贝程序 DFSMSdss 来启动,对于 ESS 中设置了卷或 LUN 的系统,则可以通过 IBM TotalStorage Expert ESS 专家拷贝服务的 Web 接口来启动。快速拷贝功能还可以与其他硬件辅助的功能如 PPRC 相结合,使您可以在几秒钟内创建 PPRC 副卷的一个快速拷贝。
业务数据恢复
     由于业务相关数据主要部分的管理是由一个或多个数据库管理系统(DBMS)来完成,本部分将说明主站的恢复过程,并且将着重说明灾难恢复时的不同。
     传统意义上,数据库恢复的基础是利用一个安全的时间点备份(映像拷贝)来进行数据库恢复,并利用 DBMS 历史记录中的一个安全拷贝可以随意执行一个向前恢复。对 DBMS 数据库来说,很有可能执行的是 "实时向前滚动" 和 "实时远程更新" 解决方案。
     在灾难发生时计算中心如果使用历史记录数据进行向前恢复,那么历史记录数据与必要的恢复控制信息一起必须被安全地离站存储。如果 DBMS 运用双历史记录,那么副历史记录数据可以分配到远程附属的 DASD 上。这可能是一个花费稍高的解决方案,但它能够消除历史记录数据丢失带来的风险。否则,您需要通过磁盘镜像来使用远程实时历史记录,例如 IBM 的远程拷贝功能。
企业系统连接 (ESCON)
     ESCON 极大地提高了处理器和 I/O 设备之间以及多处理器之间的内部连接能力。利用 ESCON,数据可以以 18.6MB/秒的速率传输。传输的最大距离取决于光纤电缆的类型、内部连接的组成部分以及所使用的控制单元。这些距离规范大多数都不是硬性限制。超出这些限制仅仅会导致性能上的降低。然而,若超出一定的值,系统将会停止工作。
     ESCON XDF 的使用可以使得信道连接的距离足够满足许多灾难恢复解决方案的要求。现在间隔 60km 以外的主站和二级站点之间可以利用大带宽 CTC 连接,直接进行处理器与处理器之间的备份数据传输。DASD 和盒式磁盘设备都可安置在距离主站点 43km 的地方,并允许离站对关键数据直接进行简单有效的拷贝。这意味着关键数据将会快速安全地完成备份过程。这就去除了传统的手工传送备份数据到一个安全站点的操作。

相关阅读

每日精选

点击查看更多

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑