解密:重复数据删除的前世今生

互联网 | 编辑: 杨雪姣 2008-04-21 17:10:00转载 返回原文

第一页

Data De-duplication,目前惯用的中文译法即重复数据删除,更为准确的表达是去除数据副本。在Gartner中国存储分析师张瑾看来,这个词并不是英文原意,但从技术角度比较真实地复原了需要表达的内涵。

前世:SIS成为一项标配

重复数据删除看似从2007年才开始提出,事实上,它并不是一个新兴技术。或许有细心的用户在微软Exchange Server的附件功能中就看到它的影子了。从Windows Storage Server2003 R2开始,单一实例存储(Single Instance Storage,SIS)就已经成为一项标配。而SIS,我们完全可以把它看作是文件级的重复数据删除技术。

目前,Symantec(VERITAS)、CA以及CommVault所使用的重复数据删除技术,更多的是从SIS演化而来,不同的只是各家厂商已经意识到,仅仅停留在文件级别已经不能满足用户对于节约存储空间,甚至节能的需求。

企业为了保护数据必须定期执行数据备份,虽然磁盘备份快速吃掉了存储空间,但企业也绝不会因此而减少备份的次数,因为这会牺牲数据保护的可靠度,增长备份周期换取存储空间只是个舍本逐末的作法。事实上,不只是数据备份,每个企业都希望保存自身营运的历史记录,藉此作为企业决策分析的依据,因此,未来数据累积的速度绝对是不断提高的。

重复数据删除由此诞生了。对于解决上述问题而言,重复数据删除是目前看来最为行之有效的手段。以重复性最高的数据备份来说,如果每个备份档的差异只有30%,也就是说有70%的空间白白浪费掉。反言之,使用技术手段解决的话,用户就能凭空多出70%的存储空间,这无疑是用户乐于见到的情形。

就笔者了解到的,虽然各家宣传的压缩比不一,主要还是因为各类数据压缩效果,以及不同环境导致的原因。事实上,平均压缩率达10倍是被众多厂商所认可的。即平均情况下,用户能用原来十分之一的空间来保存现有的数据资源。

第二页

今生:实现和可靠性须观望

好处如此明显,但在市场上用户的接受度却并不高。按照一些分析师的看法,就是用户在“持币观望”。对这种态度进行简单的分析,不难发现,主要原因就在于重复数据删除技术的实现手段和可靠性。

第一,重复数据删除技术实现方法不一。目前,实现重复数据删除技术的方法分为两种,In-line和Post-processing。In-line顾名思义,即在线处理,备份之前就进行重复数据的删除。以Data Domain和Diligent为代表。Post-processing是指备份到存储设备之后再进行重复数据的删除工作。FalconStor和Sepaton是这个阵营的忠实拥护者。

In-line由于在备份之前就进行重复数据的检查删除工作,无疑能帮助用户大大降低末端存储设备的占用率。但有消息也表明,In-line对CPU及网络资源的占用非常大。而Post-processing显著的特点,就是对后端存储设备的容量占用较多。就目前而言,笔者并不能说两种技术究竟哪种更为先进、今后谁会成为重复数据删除技术的主要支柱。

第二则是用户普遍关心的可靠性。目前,所有的重复数据删除产品都不是基于主存储设备,当然已经有存储厂商宣布推出支持重复数据删除的主存储设备,但我们尚未看到应用实例。对于重复数据删除技术而言,重要的一点就是对压缩数据的指针指向。众多厂商都对这些指针有多重保护措施。笔者所熟悉的一家厂商甚至专门设立了一个指针存储端。但问题在于,如果保存压缩数据的存储设备损坏了,即使是指针完好无损,对于用户来说,也无法恢复数据。

由于SIS的局限性,就目前看来,重复数据删除是未来一段时间内删除冗余数据的最好实现方式。就笔者和众多厂商的交流看来,几乎别无他选。但影响其在用户层面被广泛接受的因素还需要存储厂商们好好去思考。在今天,用户已经不会被一些形式化的宣传所诱惑。对于用户来说,万无一失的数据保护才是他们真正想要看到的。

重复数据删除技术实现方法对比
名称 优势 劣势
In-line 帮助用户降低后端存储设备的占用率 对CPU及网络资源的占用非常大
Post-processing 备份数据接近完整,降低失真概率 对后端存储设备的容量占用较多

返回原文

本文导航

相关阅读

每日精选

点击查看更多

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑