第二页
革命:重复数据删除
企业的IT系统每天都会做数据备份。一般来说,每天会做一个增量备份,每周会做一个全备份。检视一下这些备份数据,会发现大量数据是重复的,重复数据导致了数据量以几何级数增长。假定某个系统初始数据量为50TB,每天增加8TB,一周6天做增量备份,周末做全备份,一周备份数据就达到98TB。但使用重复数据删除技术(Data Deduplication,简称3D),50TB的初始数据不用重复做备份,进一步发现每天8TB增量数据,可以压缩到500GB,因此每周7天备份只增加3.5TB,数据量比传统备份低95%以上。
图1 重复数据删除效果示例
重复数据删除技术按照部署位置可分为源端重复数据删除和目标端重复数据删除。顾名思义,源端重复数据删除就是先删除重复数据,再将数据传到备份设备;目标端重复数据删除是先将数据传到备份设备,存储时再删除重复数据。按照检查重复数据的算法不同,重复数据删除可以分为对象(文件)级和块级的重复数据删除,对象级的重复数据删除保证文件不重复;块级重复数据删除则将文件分成数据块进行比较,根据划分数据块的不同方法,又可分为定长块和变长块的重复数据删除技术。变长块的方法可以“斤斤计较”地把每一个重复的字节都删掉,重复删除率最高;定长块的技术只能大致地把相同的数据块去掉,删除率次之。
EMC能够根据客户的不同需求,提供三种重复数据删除技术。一是对象级的重复数据删除。在EMC Centera归档平台中,因为要满足法规遵从,EMC提供文件级(也叫对象级)的重复数据删除,将一个文件视为一个对象,当一个对象又被再次存储时,它不会存两份同样的数据,只是返回一个指针,并提示这个数据已经存在。但只有两个文件一模一样,它才会只存一次。如果文件哪怕有微小的变化,它就要存两次。二是Avamar重复数据删除技术,它是变长块的源端重复数据删除,删除率达到300:1,500:1,甚至更高。三是EMC虚拟磁带库(EMC Disk Library,EDL)。EDL跟Avamar是一个互补,Avamar是在源端进行重复数据删除,EDL是在后端(目标端)进行重复数据删除。
图2 EMC Avamar工作原理
重复数据删除可以给用户带来诸多好处。一是减少了存储容量;二是避免了备份窗口不足的问题;三是可以通过广域网异地备份,对分支机构的备份可以集中管理;四是在VMware虚拟化环境中,(EMC Avamar在虚拟主机源端进行重复数据删除后)可以极大地减少备份程序对物理主机CPU和内存资源的争用。
网友评论