集群文件存储吹响进军企业市场的号角

互联网 | 编辑: 杨雪姣 2007-08-22 10:38:00转载 返回原文

第一页

集群存储的时代终于来临了。在过去的十年中,随着人们不断突破可拓展性,“按增长所需付费”(Pay-as-you-grow)的概念吸引了最终用户和厂商。然而在过去的五年中,集群存储逐渐成熟,一些小型的初创公司已经证明它们有能力实现集群存储概念的目标。

集群存储架构囊括了所有类型的存储系统,包括基于块的(Fibre Channel和iSCSI)和基于文件的(NFS和CIFS)系统。现在,集群存储架构主要是受到两大独立的市场的牵引——iSCSI和NAS。

本文主要讨论的是集群文件存储系统,这个市场的代表厂商是BlueArc、Exanet、Ibrix、Isilon、HP(通过PolyServe)、NetApp(通过Spinnaker Networks)、ONStor、Panasas和Red Hat(通过Sistina Software),它们都是集群文件存储概念的倡导者。

单集成电路NAS的问题

大部分NAS厂商通常采取了可升级扩展的方法来提供性能和容量。在它们的主文件管理器产品线中,无论NetApp还是EMC都使用了单插头设计的方式来连接一整套物理磁盘。这种单集成电路的方式意味着某一特定文件系统的所有I/O必须经过数据路径上的一个单插头处理。在升级扩展的时候,NAS厂商会向客户销售规模更大、成本更高的单集成电路NAS系统。它们可以处理更高的I/O,提供更大的容量。但是,这种升级扩展方式带来了三大核心问题:

很难扩展数据路径:传统的单插头NAS系统可以为一个单一的文件系统提供最高250MBps的I/O吞吐量。可是,整合后的工作负载和新的分布式应用需要的吞吐能力大于250MBps,传统的NAS遇到了性能局限。为了进一步提高性能,必须手动地将数据分配给多个文件管理器。可是,如果这样做的话,管理员们就有可能会失去一个重要的优势:能够在一个命名空间下管理所有的文件数据。因此,为了得到所需要的性能,管理员们必须牺牲对整个非结构化数据环境的管理能力——这对于绝大部分人来说都难以接受。

高容量系统价格昂贵,而且难于管理。每个文件管理器都限制了一个系统所能够访问的容量。因此,如果数据的增长速度超过预期,管理员就需要进行“大规模升级”,购买一个规模更大、成本更高的NAS系统以满足增长的容量需求。这种大规模升级的方式不仅仅在系统进行升级或数据进行迁移的时候会造成系统中断,还需要在前期投入大量的资金,而不是一次投入一小笔的增量投资。

管理多个文件夹的做法非常不经济:NAS文件管理器通常使用和操作都比较简单。但是,无论一个系统管理起来多简单,随着数据中心中文件夹数量越来越多,管理工作也相应地增长了。每个文件管理器都引入了一个独立的命名空间以及一套必须提供的文件数据,需要独立地进行保护、复制和维护。因此,普通用户们总是说:“我喜欢我第一个文件管理器,但是我恨第十个文件管理器。”

进入集群存储

集群文件存储解决了单集成电路NAS系统的缺点。通过使用高级文件系统、集群存储系统,可以将各不同的控制器和物理磁盘的性能和容量整合在一起,形成一个统一的、可升级的、具有容错能力的NAS资源。使用这种方法的结果是,系统成为统一的共享命名空间,可以通过普通的文件访问协议,例如NFS、CIFS和HTTP等进行访问。集群存储系统的命名空间为所有集中管理的非结构化数据提供了统一的文件和目录结构。

集群存储和传统的单集成电路存储相比,有四大主要的优势:

• I/O可扩展性:这一能力不仅仅是支持绝大部分I/O密集的应用,还可以将多个工作负载整合到一个统一的可扩展资源上;
• 单点管理:用统一的命名空间对多个物理节点或存储资源的虚拟环境统一进行高级管理。
• 容错:在遇到多个节点、磁盘或网络错误的时候,所存储的内容应该能够继续访问。
• 投资保护:随着时间推移扩展存储架构和容量的能力,不需要进行大量的前期投资。

未完,请翻页

第二页

四种趋势

一些趋势预示出集群存储的未来一片光明:

新的集群计算架构类型需要可升级扩展的集群存储 在过去五年里,最有趣的变化是集群和分布式应用快速兴起。IT部门如果要升级扩展一个系统,通常会选择购买更大、更强劲的服务器来提供更高级别的计算能力。然而单集成电路服务器已经不能适应数据中心中一些应用的要求了。
集群计算架构的示例中包括了网络应用、整合和虚拟的服务器环境以及技术计算应用。

随着互联网的兴起,基于网络的应用已经取代了客户端/服务器,成为应用架构的主流。而且,互联网所提供的可扩展性及可靠性超出了以往人们的想象。存储系统必须能够处理数以千计的并发用户,并能够实现无缝扩展,以支持数百TB的在线数据,满足连续7天24小时的运行要求。

其次,通过使用VMware之类的服务器虚拟工具,IT部门将以前没有得到充分利用的服务器和应用整合在一起,建设成一个管理集中的服务器池,同时运行着多个虚拟操作环境。当这些虚拟环境扩展的时候,存储架构的性能、可用性及性价比就成了能否提高可扩展性的关键。虚拟服务器环境需要反应时间低、性能高的存储系统。

第三,从科学研究机构到不同行业实现关键业务功能的核心重要任务应用,技术计算应用随处可见。这些集群计算应用可能连接了几千台性价比很高的x86服务器,以实现极高的计算性能求。这些应用大量存在于不同的行业之中——金融服务中的经济和蒙特卡洛(Monte Carlo)模拟集群、生物科学领域的Blast Cluster、石油/天然气开采中的地震处理应用、电影电视制造业的视频着色和制造业的CAD/CAM应用。绝大部分技术计算应用对存储容量和I/O吞吐量都要求极大,让单集成电路 NAS系统穷于应付。

这些集群计算应用之间的共同点是它们必须共享数据,存储的性能是决定整个应用的响应时间和吞吐量的一个关键。简而言之,单集成电路存储系统不达到这些新的应用类别所需要的高吞吐量、容错能力和无缝扩展的要求。随着这些分布式和集群应用逐步在企业数据中心得到应用,IT部门开始重新考虑他们的存储架构。Isilon之类的厂商们抓住了机会。例如,Isilon在延伸到石油和天然气开采、大型网络和流媒体和数字存储领域之前,最初关注的是视频着色和视频生产功能。

经证实,将文件服务器整合到集群存储实现了较好的投资回报 今天,世界上每5台销售出去的Windows服务器就有1台将作为文件和打印服务器,超过50%的NAS都使用Windows。这些服务器和设备在大型企业的部门或工作组中应用广泛。结果是,企业开始意识到必须严密控制这些系统和它们的文件数据。文件服务器整合开始出现,帮助企业降低总体管理成本,并且实现对非结构化数据资源的更好控制。我们和一些用户进行了交谈,他们告诉我们在完成了文件服务器整合行动之后,投资回报率大约是30%到50%。

集群存储系统是非常好的整合解决方案,因为它们提供了一个模块化、可扩展、具备容错能力的平台,将多个文件服务器整合成一个统一管理的系统。但是,不是所有的集群系统都非常适合整合。突出的解决方案通常都和微软的技术结合的很好,例如动态目录(Active Directory)和Windows认证,也非常适合CIFS。ONStor是达到这些标准的一个厂商的范例,它将全球命名空间之类的文件虚拟技术和虚拟服务器结合在一起,帮助终端用户把全异的文件服务器整合在一起。例如,使用ONStor的虚拟服务器功能,整合在一起的每个物理文件服务器都被表示为一个虚拟服务器。结果是,客户不会知道下层文件服务架构发生了任何变化,管理员们避免了命名空间冲突(例如,多个使用同样根目录名的文件服务器彼此间发生冲突)。

未完,请翻页

第三页

集群存储得到了一线厂商的认可 最初,只有一些小型的初创公司倡导集群存储的概念。然而,在过去的三年里,NetApp和HP之类的大型厂商则通过高调的收购和OEM协议接纳了这个概念。这些行动显示出对集群存储这个概念的信任,也对最终用户发出了信号:集群存储技术已经可以进入企业市场了。

2003年,NetApp通过收购Spinnaker Networks——集群存储领域内的一家先锋公司,成为第一个拥有高级文件系统、命名空间和集群技术的一线厂商。同它的核心WAFL文件系统、高级软件功能以及FAS硬件平台的整合过程漫长而艰苦,在这个过程结束以后,NetApp于2006年中开始销售Data ONTAP GX——它的Data ONTAP操作系统的集群版本。

HP意识到如果自己想在企业NAS市场上战胜EMC或NetApp的话,必须改变游戏规则。最终,HP于2007年4月份收购了PolyServe,并利用PolyServe的集群文件系统创建使用标准HP ProLiant服务器、EVA的XP的、可扩展的NAS产品。

可是尽管出现了这些收购,到目前为止还没有一家一线厂商充分利用了集群存储的所有价值,并且在市场上占据了领导地位。NetApp因为担心危及自己的主文件管理器业务,似乎在推广Spinnaker技术的时候态度异常温和,结果逼迫Data ONTAP GX只能主要针对特定的技术计算市场。同时,HP目前还在对PolyServe的技术和自己现有的产品进行整合。结果是尽管已经有几家一线厂商接纳了这个概念,真正的冠军——或者多家胜利者——还没有出现。同时,一些规模小一些、动作敏捷的厂商却在大厂商忙于解决内部问题的时候,加快了增加收入、赢得客户的步伐。

集群存储正在填补阻碍企业使用的功能鸿沟 选购传统的单插头NAS系统的一个主要理由是它自带很多数据保护、存储管理、灾难恢复和兼容能力。高级存储管理能力,例如快照、配额、异步镜像、自动精简配置、WORM(Write-once, Read-many,一次写入,多次读取),对于很多企业来说已经成为“必备”功能。但是,很多早期的集群存储产品并不具备这些功能。因此,尽管它们在架构上具有显而易见的优点,集群存储以前还是经常被排除在核心数据中心项目之外。

不过,现在情况发生了改变。一些集群存储厂商增加了这些“必备”的企业级功能。BlueArc、Isilon、ONStor和其他一些厂商提供了一些在企业NAS产品中应该具备的核心数据保护(例如,快照功能)和灾难恢复(例如,异步和同步的复制)功能。随着集群存储解决方案开始提供一些传统NAS系统具备的功能,它们将会快速在最终用户中间流行起来。

建议

尽管市场上涌现出了各种彼此矛盾的创新产品,对于最终用户来说,选择最合适自己环境的集群存储解决方案仍然非常困难。我们建议用户从三个主要方面评估厂商和产品。

首先,用户不应该选择“万能型”集群存储方案。用户应该认识到应用和I/O工作负载应该决定选择什么样的集群存储产品。管理员们应该对他们的应用的I/O和数据访问进行评估,并将其同集群存储侯选产品进行比较。不同的架构适合于不同的I/O访问模式、文件数量和文件类型。例如,一些厂商的系统适合进行大的块、连续的I/O访问和大型文件,另一些解决方案则适合小的块、任意I/O模式和小型文件。

其次,用户应该评估协议需求。一些NAS系统最适合NFS数据访问,而另一些则在CIFS性能上非常突出。

最后,如果实施一个文件服务器整合项目的话,用户应该评估厂商在文件虚拟方面的能力和覆盖范围。用户特别应该寻找那些拥有全球命名空间的产品,它应该可以扩展到不同种类的文件服务器和虚拟服务器上,防止在整合项目中出现命名空间冲突的情况。

经过恰当的评估,用户应该能够将自己特定的需求和集群文件存储系统的功能匹配起来,做出恰当的选择。

返回原文

本文导航

相关阅读

每日精选

点击查看更多

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑