云计算的可靠性设第三部分

互联网 | 编辑: 何毅 2013-04-27 11:18:00转载

本文是之前曾发表过的系列文章的第三部分(前两篇文章分别为《云计算的可靠性设计 Part 1》和《微软：利用软件解决云计算的可靠性》)。在本文中，我将讨论帮助微软提高服务的可靠性，以及帮助我们的客户实现云计算的全部潜力方面转变和进化的工程原理。

本文转自：机房360

从客户的角度来看，云服务应该只是工作。但是，正如我们已经在这个系列文章中所讨论的那样，服务中断其实是不可避免的，这不是一个“是否会发生”的问题，严格意义上是“何时会发生”的问题。不管在线服务的设计和建成是如何的精炼，都会不可避免的遭遇到突发事件的发生。区别就在于服务提供商如何预测，并及时的从这些情况中进行恢复。从而保证客户的体验。

指导设计原则

云服务的三大设计指导原则：1、数据的完整性，2、容错能力，3、快速恢复。这些是客户期望满足的三大属性，至少，要在他们的服务中保证这三大属性。数据完整性是指保护客户委托服务的信息的保真度。容错能力是服务供应商能够检测到故障，并自动采取纠正措施，以便使得服务不会发生中断的服务能力。快速恢复能力是指在未预料到的故障发生时，能够迅速而完全的恢复服务的能力。

作为服务服务商，我们需要尽可能的提前识别并找出各种潜在的故障，然后在服务设计阶段对这些情况进行充分的考虑。这种周全的计划可以帮助我们决定如何确切地服务，并在发生意想不到的挑战时如何做出反应。服务必须能够从这些故障的情况下进行恢复，并保证最小的中断。虽然我们不能预测到每一个故障点或每一失效模式，但利用前瞻性、业务连续性规划和大量的实践，我们可以制定一套紧急预案的流程，以备不时之需。

根据云计算的特点，其可以被描述为一个复杂的系统组成，依赖于共享的基础设施和松散的耦合的性，许多特性都是在供应商的直接控制之外。传统上，许多企业维护的内部部署的计算环境，能够让他们直接控制他们的应用程序，基础设施和相关服务。然而，随着云计算的使用量的持续增长，很多企业都纷纷开始选择放弃一些控制权，以降低成本，充分利用资源的弹性(例如，计算、存储、网络资源)，促进业务的灵活性，以及??更有效地利用他们的IT资源。

理解团队的角色定位

从工程服务团队的角度来看，设计和建筑服务(相对于盒产品，或企业内部部署的解决方案)意味着扩大了他们的责任范围。在设计企业内部部署的解决方案时，工程团队只需要设计建造并测试服务，将其打包，然后根据软件操作建议所描述的计算环境进行发布即可。而相比之下，工程服务团队在设计建造并测试服务之后，还要进行相关的部署和监控，以便确保服务的继续运行，如果有突发事件，他们需要确保尽快的解决。而且工程服务团队经常对服务计算环境具有更少的控制权!

采用故障模式及影响分析

许多服务团队采用故障模型(FMA)和根本原因分析(RCA)，以帮助他们提高服务的可靠性，防止故障的发生。我的看法是，这些都是必要的，但还不够。相反，设计团队应采用故障模式及影响分析(FMEA)来帮助确保更有效的结果。

FMA通过可重复的设计流程旨在识别和减轻服务设计过程中的故障。RCA包括识别和确定导致有害结果的性质、规模、位置和时间因素。一套整体的终端到终端的FMEA方法的主要好处包括全面的故障点和故障模式综合图，能够形成一个工程投资的优先级列表，以减轻已知故障的映射。

FMEA运用系统可靠性工程师技术的开发研究，发现可能出现的(复杂的)系统故障问题。研究通过评估严重程度、发生的频率和检测能力来了解故障影响可能存在的问题，以便基于不同的风险优先处理所需工程投资。

准备阶段：在此步骤中，重要的是要理解系统的完整性，生成一个完整的系统的逻辑图，包括其组成部分、数据源和数据业务流。使用模板来完成，这提高了整体的分析结果，通过提供可能的故障点，设计团队可以发掘到重要的线索。

发现组件间的相互作用：一切都在这一步的范围内。从前面所指出的逻辑图开始，以确定所有的组件是否容易运行失败。了解所有组件(连接器)之间的相互作用，以及每个组件如何在完整的系统中发挥作用。

每日精选

荣耀启用全新品牌标识荣耀之环敢想敢不同

荣耀终端股份有限公司CEO李健官宣，荣耀将在原有字母标识基础上，新增专属图形标识“荣耀之环”，同步启用全新品牌主张“敢想，敢不同”。

标签：荣耀| 荣耀之环| 品牌标识| 2026-07-23
上半年国内学习平板市场量额双降头部四大品牌市占率近八成

受政策红利消退、行业竞争加剧、用户消费及需求迭代等多重因素叠加影响，国内学习平板行业整体承压，呈现销量、销售额双下滑的发展态势。

标签：平板| 学习平板| 作业帮| 学而思| 2026-07-23
2026上半年回音壁线上市场遇冷中端机型成增长主力

2026年上半年中国回音壁线上市场零售量达到11万台，同比下降30.4%，零售额达到2.3亿元，同比下降30.1%。

标签：音响| 回音壁| 索尼| 2026-07-23
阿斯加特V7 PCIe 4.0 SSD上市 1TB售价999元

阿斯加特V7 SSD已在京东等电商平台上线销售，提供1TB 和2TB两种容量版本，售价999元起。

标签：阿斯加特| V7| PCIe4.0| SSD| 固态硬盘| 2026-07-23
苹果未来两年Mac产品路线图曝光 OLED、M7与AI成升级重点

Mark Gurman披露苹果未来两年Mac产品路线图，涉及11款新品，涵盖MacBook Pro、MacBook Air、iMac、Mac mini、Mac Studio及全新MacBook Ultra，OLED屏幕、M6/M7芯片与AI体验将成为升级重点。

标签：苹果| Mac| 路线图| OLED| 2026-07-23
骁龙8E5将推出降频版主打高性价比下半年见

为应对存储芯片涨价带来的整机成本上涨，高通计划在今年下半年推出降频版骁龙8E5处理器。

标签：骁龙8E5| 降频版| 价格| 2026-07-24
OPPO K15评测：大电池+IP69防水高温户外不卡顿

内置散热风扇，直接拉高了OPPO K15的使用下限，不管什么场景、长时间高负载运行，整机流畅度都有保障。

标签： OPPO| OPPOK15| 评测| 2026-07-24
手机价格或迎来拐点：小米上调出货 OV拒涨报价

存储芯片持续涨价成为压在手机行业身上的重担，市面上所有机型售价一路走高。随着小米上调出货，OV拒绝了涨价报价，似乎手机价格要迎来拐点了。

标签：存储| 涨价| 降价| 2026-07-25
英特尔发布2026年第二季度财报 AI需求带动营收同比增长25%

英特尔公布2026年第二季度财报，实现营收161亿美元，同比增长25%，创逾十五年来最快营收增长。AI带动算力需求持续提升，数据中心、客户端及晶圆代工业务保持增长，公司同时给出了第三季度业绩指引。

标签：英特尔| 财报| AI| 数据中心| 2026-07-24
AMD发布MI455X、EPYC Venice与Helios 全栈AI战略全面升级

AMD在Advancing AI 2026大会发布Instinct MI455X GPU、EPYC Venice服务器CPU及Helios机架级AI平台，进一步完善AI基础设施产品矩阵，并宣布Helios已进入量产阶段，预计第三季度末开始交付，OpenAI将率先大规模部署。

标签： AMD| AI| 数据中心| EPYCVenice| 2026-07-24