专家从实际故障中寻找到的存储真谛

互联网 | 编辑: 杨雪姣 2007-09-25 15:30:00转载 一键看全文

第二页

例如,Gibson解释了这样一种情况:

他说:“让我们假定里在一个RAID种配备了14个磁盘,而且其中一个出现了故障。现在你需要读出13个磁盘的所有内容。 这个磁盘的容量可能是1TB。也就是说你要想重建系统必须读出13TB的数据。 一般,在数据读出量达到10TB到100TB之间时可能会出现一次介质故障。因此,也就是说在更低质量驱动器的重建过程中,你很可能无法读到所有的内容。 可能只有一个扇区读不出。即便是采用更高质量的驱动器,在10次重建中仍可能会遇到1次这种问题。”

“如果你在重建过程中无法读出某个磁盘扇区的内容,哪怕你只丢失了十亿分之一的数据,你也无法进行重建。在目前,当你在重建过程中遇到故障时,是没有任何解决办法的。然后你可能不得不去找厂商,然后由生产厂商的技术人员设法弄清楚是哪个扇区出现故障,然后想办法修复它。”

那么厂商们为什么不能进一步减少、消除或者补偿潜在介质故障呢? Gibson说,问题是市场希望能够从同样的投资中获得更多的信息。至于具体的做法,厂商们必须将数据更紧密地包在一起。 如果它们不需要保证返回给你的数据的正确性,它们可以迅速返回。因此,它们不能返回正确数据的比率是它们可以以多快的速度来提升容量以及在同样的投资下能够提供给你多少数据时所面临的一个限制。”

厂商们可以将数据压缩得更紧密一些。但是Gibson说,如果厂商们那么做的话,可能就会发生故障率上升的情况。因此,它们在进行数据压缩的时候,必须控制相应的故障率处于可接受范围内。

结果,包括Panasas公司在内的大型存储设备厂商将开发新的保护机制来应对万一发生介质故障时将故障的部分隔离开,对于企业用户们来说,这可是大大的好消息。

从失败中吸取教训

在Peta级数据存储业界的另一个重大进步是计算机故障数据存储机构(the Computer Failure Data Repository)的建立。最终用户们可以在这里发布它们的故障记录供其他人研究和学习。Gibson说,那些信息是很重要的,因为改善系统质量的正确方法是真正理解它们是如何发生故障的。

Gibson说,虽然计算机问世已经有许多年了,但是大多数计算机科学家对于故障机制的认识却比较有限。

由于厂商们常常不愿意或者不能够共享故障数据,因此计算机故障数据存储机构鼓励并依赖最终用户来提供那些故障数据,比如Los Alamos 国家实验室 、太平洋西北国家实验室、劳伦斯伯克莱试验室和国家能源研究科学计算中心等。Los Alamos国家试验室已经提供了试验室的23个不同集群在9年时间中所遭遇的故障的数据,事实证明这些数据对于研究人员们来说是非常重要的。

他认为,通过弄清楚大型计算机系统或者群集系统为什么以及如何发生故障,厂商们就可以开发出相应的新技术来减少故障,这样厂商们就可以在市场能够承担的价格范围内生产出更大、更快、更高效和更可靠的计算机和存储系统。

提示:试试键盘 “← →” 可以实现快速翻页 

总共 2 页< 上一页12
一键看全文

本文导航

相关阅读

每日精选

点击查看更多

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑