解析大数据时代的数据库集群技术

PChome | 编辑: 何毅 2014-05-19 05:00:00原创

如今“大数据”这个词已经变得非常流行，虽然这个概念如何落地不得而知。但可以确定的是，随着物联网、移动应用的兴起，数据量相比过去会有几何级的提升。

随着数据量得指数增加，数据库所需要解决的问题不再仅仅是记录程序正确的处理结果，还面临着诸多挑战，例如当数据库性能遇到问题时，是否能够横向扩展、数据库的横向扩展是否对应用程序透明等等，面对上述挑战一个显而易见的办法是将多个服务器组成一组集群，这样一来就可以充分利用每一台服务器的资源并将客户端负载分发到不同服务器上，本文来自宋沄剑的博客。

以下为原文：

当今世界是一个信息化的世界，我们的生活中无论是生活、工作、学习都离不开信息系统的支撑。而信息系统的背后用于保存和处理最终结果的地方就是数据库。因此数据库系统就变得尤为重要，这意味着如果数据库如果面临问题，则意味着整个应用系统也会面临挑战，从而带来严重的损失和后果。

如今“大数据”这个词已经变得非常流行，虽然这个概念如何落地不得而知。但可以确定的是，随着物联网、移动应用的兴起，数据量相比过去会有几何级的提升，因此数据库所需要解决的问题不再仅仅是记录程序正确的处理结果，还需要解决如下挑战：

当数据库性能遇到问题时，是否能够横向扩展，通过添加服务器的方式达到更高的吞吐量，从而充分利用现有的硬件实现更好的投资回报率。

是否拥有实时同步的副本，当数据库面临灾难时，可以短时间内通过故障转移的方式保证数据库的可用性。此外，当数据丢失或损坏时，能否通过所谓的实时副本（热备）实现数据的零损失。

数据库的横向扩展是否对应用程序透明，如果数据库的横向扩展需要应用程序端进行大量修改，则所带来的后果不仅仅是高昂的开发成本，同时也会带来很多潜在和非潜在的风险。

面对上述挑战一个显而易见的办法是将多个服务器组成一组集群，这样一来就可以充分利用每一台服务器的资源并将客户端负载分发到不同服务器上，随着应用程序负载的增加，只需要将新的服务器添加到集群即可。

本文将对集群的概念、形式以及目前主流的数据库集群技术进行探讨。

数据库集群的形式

数据库的集群和扩展不像应用程序扩展那样容易，因为从数据库端来说，一旦涉及到了集群，往往会涉及到数据库层面的同步，因此从是否存在数据冗余这个角度来讲，我们可以从大面上把数据库集群分为以下两种形式：

Share-Disk架构

Share-Disk架构是通过多个服务器节点共享一个存储来实现数据库集群，两台机器最简单的Share-Disk架构如图1所示。

图1.简单的Share-Disk架构

在此基础之上，Share-Disk架构又分为单活和双活，双活即为集群中的每一个节点都可以同时对外提供服务，而单活为集群中只有一个节点可对外提供服务，集群中的其他服务器作为冗余在“活”的节点出现故障时接替该服务器成为对外提供服务的节点。该类架构最典型的产品就是SQL Server Failover Cluster（SQL Server故障转移集群）、NEC的EXPRESSCLUSTER、ROSE的ROSE HA.这种方式的弊端也是显而易见的，如下：

硬件资源的严重浪费，同一时间集群中只有一台服务器活着，其他服务器只能作为冗余服务器。

集群无法提升性能，因为只有一台服务器可用

存储方面存在单点故障，除非在存储层级保证高可用，通常需要昂贵的SAN存储。

因此该类方案仅仅可以做到服务器层面的高可用，无法带来性能的提升，也无法解决存储单点故障的问题。因此如果不搭配其他高可用或负载均衡的技术，存在的意义并不是很大。

另一类技术是Share-Disk中的双活的技术，与单活技术不同的是，双活的技术虽然也是共享磁盘，但集群中的所有节点都可以对外提供服务，典型的产品就是Oracle的RAC.RAC的技术性非常的高，因此需要水平比较高的人来运维系统。RAC设计的初衷并不是为了性能，而是为了高可用和可扩展性，如果应用程序不是针对RAC架构设计和开发的，则将应用程序迁移到RAC上由于block contention （block busy waits）可能会导致性能的急剧下降，并且节点越多性能下降越明显。

Share-Nothing架构

Share-Nothing架构又分为两种，首先是分布式架构。将数据库中的数据按照某一标准分布到多台机器中，查询或插入时按照条件查询或插入对应的分区。

另一种是每一个节点完全独立，节点之间通过网络连接，通常是通过光钎等专用网络。如图2所示。

图2.Share-Nothing冗余架构

在Share-Nothing架构中，每一个节点都拥有自己的内存和存储，都保留数据的完整副本。通常来说，又可以分为两种，可以负载均衡和不可以负载均衡。

首先谈谈不可负载均衡的集群，在不可负载均衡的技术中，集群中的节点会被分为主节点和辅助节点，主节点向外提供服务，辅助节点作为热备（二阶段事务提交）或暖备（不需要保证事务同步），同时有可能使得辅助节点提供只读的服务。使用这个架构的技术包括：SQL Server AlwaysOn,SQL Server Mirror,Oracle Data Guard这种架构带来的好处包括：

辅助节点数据和主节点保持同步或准同步，当搭配第三方仲裁后，可以实现自动的故障转移，从而实现了高可用

辅助节点由于和主节点完全独立且数据同步或准同步，因此主节点出现数据损坏后，可以从辅助节点恢复数据（自动或手动）

由于Share-Nothing架构使用了本地存储（或SAN），相较于Share-Disk架构在慢速网络时有非常大的性能优势

当然，弊端也显而易见，因为辅助节点无法对外提供服务或只能提供只读服务，因此该类集群的弊端包括：

扩展能力非常有限

对性能没有提升，因为涉及到各节点的数据同步，甚至带来性能的下降

辅助节点如果可读，虽然提升性能，但需要修改前端应用程序，对应用程序不透明

另一类Share-Nothing架构中，是允许负载均衡的。所谓负载均衡就是将对数据库的负载分布到集群中的多个节点上，在集群中的每一个节点都可以对外提供服务，从而达到更高的吞吐量，更好的资源利用率和更低的响应时间。前端通过代理进行调度。使用该类架构的技术包括：MySQL上的Amoeba，MySQL上的HA Proxy，格瑞趋势在SQL Server上的Moebius集群。

可负载均衡的Share-Nothing架构的好处是每台服务器都能提供服务，能充分利用现有资源，达到更高的吞吐量。其中Amoeba中可能会涉及到数据分片，数据分片的好处是对于海量数据的处理更加高效，但同时也引入了其他问题，比如说需要应用程序端对应数据分片进行调整、跨分片节点查询的处理问题、每一个数据分片节点是否能够承受各自业务负载的高峰问题等。该类架构需要实施的人员水平比较高，且需要应用层面做调整，因此更适合于互联网企业。

另一类不涉及到数据分片的架构，比如一类可以使用组合方案，比如说Oracle RAC+F5.另一类是使用单个厂商提供的方案，比如说SQL Server上的Moebius.这类方案集群中的每个节点都会对外提供服务，因此有如下好处：

由于每一个节点都可以对外提供服务，因此可以提升性能

扩展性得到提升，可以通过向集群添加节点直接进行Scale-Out扩充

由于前端应用通过代理连接到集群，而集群中的每一个节点都保持完整的数据集，因此不存在分片不到位反而造成性能下降的问题，因此对应用程序端完全透明

但相比较于MySQL的数据分片，该类方案的弊端也显而易见，因为每一个节点都需要完整的数据集，因此需要占用更多的存储空间。

小结

本文从一个比较高的层面谈到了数据库集群技术。从数据库应用层面的Share-Disk集群直到集群的最高形式-能够提供负载均衡的集群，并列举了一些主流的商用产品。集群的存在意义是为了保证高可用、数据安全、扩展性以及负载均衡。如果现在的集群产品不能包含这几个特性，而业务场景也需要，也可以将和一些现有的技术结合来实现，但毕竟不是每一个人都是数据库专家，即使给你一堆工具和材料你也做不出来iPhone,因此在系统设计之初就对数据库方面的方案有所考虑会免去很多麻烦。

每日精选

国行苹果AI有望9月上线阿里百度提供技术支持

为适配国内法规与用户需求，国行版Apple智能、Siri AI完成全套本土化重构，阿里千问与百度文心将分工承接不同AI能力，打造专属国内的智能服务体系，而这也与早期的爆料消息一致。

标签：苹果| 阿里千问| 百度文心| AI| 2026-07-16
三星折叠屏新品或取消免费升杯改为半价补贴

三星将于7月22日发布的全新折叠屏系列，或将正式取消免费升杯福利。此番调整的核心原因，正是持续上涨的存储芯片成本，让三星难以继续承担全额免费扩容的补贴成本。

标签：三星| 折叠屏| 免费升杯| 2026-07-16
6月TOP电视ODM工厂出货同比微降前十工厂分化明显

全球前十专业电视ODM工厂6月合计出货量同比小幅下滑0.5%，终止此前连续多月同比上行态势；环比5月出货规模提升4.4%。

标签：电视| 茂佳| 京东方| 2026-07-16
REDMI Note17 Pro值得买吗？优缺点一次聊透！

千元机新王？1599元起，Redmi Note17 Pro值得买吗？优缺点一次聊透！

标签： 1599元| Redmi| Note17Pro| RedmiNote17| 2026-07-16
周杰伦现身温网手持机型实锤vivo X300 Ultra

周杰伦现身温网现场，赛场抓拍的高清画面引发网友热议。而除了明星本人之外，周杰伦手中的拍摄设备也备受关注，不难看出这是一款带了专属保护壳的vivo X300 Ultra专业V单

标签：周杰伦| vivo| vivoX300Ultra| 温网| 2026-07-16
东方算芯发布AI芯片DF1000：14nm实现520TFLOPS算力

东方算芯发布旗舰AI芯片DF1000，采用“软件定义+3D堆叠近存计算”架构，在14nm成熟工艺节点上实现520TFLOPS（BF16）算力和6.4TB/s访存带宽，为国产高端AI算力探索一条不依赖先进制程的发展路径。

标签：东方算芯| AI| DF1000| 算力| 2026-07-16
两种配色影像夯爆荣耀Robot Phone蓄势待发

荣耀CEO李健在微博中透露，全球首台机器人手机荣耀Robot Phone已就绪。官方海报可以看出，这款手机具有两种配色，在此前曝光的深色系之外，还会有白色的浅色系配色版本。

标签：荣耀| RobotPhone| 配色| 2026-07-16
OpenAI推出Codex Micro键盘面向AI编程智能体

OpenAI推出首款品牌硬件产品Codex Micro，这是一把配有13枚机械按键的宏键盘，由OpenAI与加拿大键盘厂商Work Louder联合打造，官方将其定位为智能体工作指挥中心。

标签： OpenAI| CodexMicro| 键盘| AI| 2026-07-16
机器人训练组合拳小米发布基座模型Robitcs-1

小米在最近三天，集中展示了在机器人具身领域的成果，在亮出人形机器人工厂成绩单、开源发布具身生成模型Xiaomi-Robotics-U0过后，具身基座模型Xiaomi-Robotics-1也宣告正式发布。

标签：小米| 机器人| Robitcs-1| 具身基座模型| 2026-07-16
购机赠AirPods取消！苹果返校季活动上线，福利缩水

苹果2026年度返校季教育优惠活动今日正式上线，福利明显缩水，延续多年的购机赠送AirPods政策取消，取而代之的是849元专属配件抵扣额度。

标签：苹果| Apple| AirPods| iPad| 2026-07-16