详解超融合如何支持虚拟机同步复制与 CloudTower 高可用，构建全栈容灾体系

对于企业关键业务系统，传统容灾方案大多聚焦于数据平面，强调数据备份与复制能力，却往往忽视业务平面与控制平面的协同建设，导致在真实灾难场景中，虽然"数据可恢复"，但业务恢复复杂、过程不可控，整体容灾能力难以满足关键业务连续性需求。

榫卯超融合 6.3 引入虚拟机粒度的原生同步复制（RPO=0）和 CloudTower 管控平台高可用（HA）能力，提供可对标传统高端存储阵列的原生容灾能力，结合已有的异步复制与备份能力，形成覆盖数据保护、业务恢复与平台管控的全栈容灾闭环。

主流基础架构层容灾方案的挑战

针对核心业务系统容灾，企业常见的建设方案在基础架构层面大致可以分为两类路径。一类是基于传统三层架构构建的容灾体系，通常依赖外部存储阵列、复制软件以及多组件协同实现数据保护与业务恢复，但在实践中往往存在以下问题：

成本高昂：依赖专用存储设备与多套系统叠加，建设与运维投入较大。
架构复杂：计算、存储、网络与容灾能力分散在不同系统中，部署与运维门槛高。
能力割裂：数据复制、业务恢复与管理控制分属不同层面，难以形成统一的容灾体系。

另一类是基于超融合的拉伸集群方案，虽然相比传统方案简化了架构，并提供了更高实时性的数据保护能力，但在实际落地中仍然存在一定的局限：

以集群为单位进行保护：难以按业务重要性进行差异化容灾，非核心业务也需承担同等级的保护成本。
网络要求：依赖稳定、低延迟的 L2 网络，网络波动可能对业务连续性产生较大影响。
可验证性不足：方案侧重高可用，但在数据保护策略灵活性、灾备编排及恢复演练验证方面仍存在局限。

考虑到企业容灾越来越强调"数据保护、业务连续性与控制能力一体化"的完整体系，如何在保证架构简洁 的前提下，兼顾实时性 、灵活性 与可验证性 ，构建一套覆盖不同故障场景的容灾能力版图，成为超融合平台进一步演进的关键方向。

榫卯超融合 6.3：原生同步复制 + CloudTower 高可用，实现全栈容灾升级

榫卯超融合 6.3 致力于在超融合架构内，构建一套对标传统高端存储阵列能力的原生容灾体系。该版本重点强化了两项核心能力：

原生同步复制（RPO=0）

在传统架构中，RPO=0 的同步复制能力通常依赖高端存储阵列实现，部署复杂且成本较高。榫卯超融合 6.3 将这一能力直接内建于超融合体系之中，在国内率先实现虚拟机级别的实时双写与强一致性保障， 在保证数据零丢失 的同时，大幅降低容灾体系的建设复杂度：

数据在源站点与目标站点之间同步写入，网络正常情况下可确保任意时刻副本数据一致。
容忍网络抖动，网络延迟或短时中断时自动降级，源端业务写入不中断，网络恢复后自动同步至副本，确保最终一致性。
无需依赖外部存储阵列，在标准超融合架构下即可实现 RPO=0。
以虚拟机为粒度进行保护，兼顾灵活性与精细化管理能力。

CloudTower 管控平台高可用

除了数据层面的保护，企业容灾同样依赖稳定可靠的管理与控制能力。榫卯超融合 6.3 同步增强了 CloudTower 管控平台的高可用能力：

支持跨站点部署，避免单点故障影响整体管控。
在站点级故障场景下，仍可持续提供资源调度与容灾编排能力
确保容灾过程中"有能力执行恢复"，而不仅仅是"有数据可恢复"。

结合已有的异步复制、备份等灾备能力，榫卯超融合 6.3 已构建起从数据到控制的完整容灾闭环，使企业不仅具备数据恢复能力，更具备业务连续运行与统一管理能力，真正实现全栈容灾能力升级。

技术解读：虚拟机级同步复制实现 RPO=0

相比构建双活拉伸集群，同步复制功能无需对整个集群进行保护，降低整体建设成本与架构复杂度，同时具备对容灾链路抖动的自适应能力，可在一定程度上缓冲网络波动对生产业务的影响。

实现机制

数据同步机制

数据同步机制包含复制任务和同步任务两个能力。

【复制任务】用于完成主备之间的初始数据同步，建立一致的数据基线，包括：

对源端虚拟机执行全量数据复制，在目标端创建对应的副本虚拟机。
构建主备数据的一致性起点，为后续同步阶段奠定基础。

【同步任务】主要包括：

增量追平阶段：对复制期间产生的差异数据进行追平，将最新数据同步至副本端，确保主备数据达到严格一致状态，从而平滑过渡至实时同步阶段。
实时双写阶段：进入已同步状态后，所有写入同时作用于源端与目标端，且需在两端均完成后才返回成功；在网络正常情况下，任意时刻主备数据保持强一致，实现 RPO= 0。

故障处理机制

故障转移：当源站点不可用时，可将业务切换至副本虚拟机运行，由副本侧接管生产负载。
故障恢复：当原站点恢复后，复制服务执行反向复制，将故障转移期间副本虚拟机产生的增量数据同步回原虚拟机，以恢复主备一致性关系。

注：当前仅支持人工执行故障转移与故障恢复操作。

功能亮点

自动降级避免影响生产

在网络波动或写入压力上升等场景下，系统可自动触发降级机制，优先保障生产业务的稳定运行，避免因同步复制带来的性能抖动或业务中断风险。

灵活的恢复点机制

支持多种恢复点生成方式。在数据处于"已同步"状态时，可周期性生成恢复点；当同步复制出现异常时，系统也可自动生成恢复点，尽可能保留关键数据。通过引入恢复点机制，用户在故障恢复时可基于不同时间点进行选择，从而提升恢复的灵活性与可控性。

多种方式提升恢复效率

网络映射：在故障切换过程中，可基于预设策略自动完成副本虚拟机的网络与 IP 配置，适配复杂网络环境下的灾备部署需求，减少人工干预，加快业务接管速度。对于源端与副本位于同一 VPC 与子网的场景，还可进一步实现网络层面的高可用能力。
灾难恢复编排：支持批量执行故障处理，并可定义虚拟机的启动顺序及启动延迟，确保业务按照依赖关系有序恢复，避免因启动顺序不当导致的服务异常。

高效容灾演练方式

提供多种容灾演练方式，兼顾安全性与真实性，满足企业日常演练与合规要求：

不影响生产的模拟容灾演练模式：在演练过程中，副本虚拟机运行在隔离网络中，支持访问恢复点数据、验证业务可用性，确保灾备流程可靠可行，满足日常合规检查和恢复验证需求。
贴近真实场景的容灾演练模式：进行计划内的故障切换，按照实际容灾流程完成业务接管与切换操作，全面验证系统在真实故障场景下的可恢复能力与运行稳定性。

不同容灾方案对比

拉伸集群双活 vs 同步复制

典型适用场景

基于上述差异，两类方案在实际选型时可以遵循以下思路：

**【拉伸集群双活】**适用于对业务连续性要求极高的核心系统：

业务不可中断：支持自动故障切换，RTO 极低（分钟级甚至更低）。
应用具备集群能力：如 Oracle RAC 等依赖共享存储或多节点协同的应用。
基础设施条件成熟：站点间具备稳定低延迟网络，且资源投入充足。

**【同步复制】**适用于兼顾数据安全与成本控制的关键业务：

数据不能丢，但允许短暂中断：提供 RPO=0 的数据保护，切换可人工介入。
资源投入更可控：仅保护关键业务，无需整体双活部署。
网络条件更宽松：支持跨 L3 网络，容忍一定延迟与抖动。
架构更灵活：可独立规划生产与灾备资源，逐步演进容灾能力。

传统三层架构容灾方案 vs 超融合同步复制

典型适用场景

**【传统三层架构容灾方案】**适用于以存储为核心、体系较为成熟的数据中心环境：

已有存储体系完善：已部署中高端存储阵列，并具备相应复制与容灾能力。
对标准化与成熟方案有要求：更倾向采用经过长期验证的存储级容灾机制。
资源与预算相对充足：能够支撑多套系统建设及持续运维投入。

**【同步复制】**适用于追求架构简化与灵活容灾能力的环境：

希望降低架构复杂度：通过一体化平台整合计算、存储与容灾能力。
关注业务视角的数据保护：按虚拟机粒度对核心业务提供 RPO=0 保护。
统一运维与监控：平台内统一管理数据复制、故障切换与恢复流程，降低运维复杂度。

技术解读：CloudTower 管控平台高可用

通过 CloudTower 管控平台高可用能力，榫卯超融合 6.3 不仅可以保障数据平面的连续性，更能实现跨站点管理平面的自动故障切换，提供更完整的容灾保障。

高可用架构

CloudTower 由无状态服务与有状态服务组成，其中有状态服务主要包括数据库与文件数据。为保障平台在异常场景下的持续可用性，支持通过跨节点部署实现高可用能力，对网络稳定性与延迟具备一定要求。当前整体采用"主动节点 + 被动节点 + 仲裁节点"的架构设计：

主动节点：当前承载管理服务的实例，对外提供完整的管控能力。
被动节点：与主动节点保持数据同步，在故障发生时可快速接管服务。
仲裁节点：负责健康状态监测与故障判定，触发自动切换，避免异常状态下的误切换。

在数据层面，数据库通过同步机制在主动与被动节点之间保持一致，确保在切换发生时，被动节点能够基于最新数据快速接管服务，实现管理平面的持续可用。

功能亮点

自动故障检测与切换：支持对集群与关键组件进行自动健康检测，在发生异常时自动触发故障切换机制，实现业务快速接管，提供 RPO = 0，RTO ≤ 5 分钟的连续性保障。
跨集群与跨数据中心容灾支持：支持跨集群、跨数据中心的容灾部署能力，容灾范围可扩展至同城多数据中心级别，满足不同等级业务的高可用与灾备需求。
健康监控与故障告警机制：提供对 HA 集群状态的持续监控能力，在资源异常、节点故障或服务不健康等场景下，能够及时感知并触发告警，帮助运维人员快速定位与处理问题。

总结

针对关键应用场景更严格的容灾要求，榫卯超融合 6.3 对容灾体系进行系统性升级，围绕数据、业务与控制三大平面进行统一设计与能力增强，构建从数据保护到业务恢复、再到平台管控的全栈容灾的数据保护能力。

业务平面：辅助恢复，提升操作效率

通过故障处理机制和网络重映射能力，支持业务在灾难场景下按策略快速接管与有序恢复，降低人工干预复杂度，提升业务恢复的确定性与效率。
控制平面：从单点管理到高可用调度
在原有 CloudTower 备份管理能力基础上，引入 CloudTower 高可用架构，确保在灾难场景下管理平台依然持续可用，实现容灾过程中的统一调度与操作不中断。

三者协同之下，形成覆盖数据保护、业务恢复与平台管控的全栈容灾闭环，使容灾能力不再局限于"数据可恢复"，而是进一步演进为"业务可恢复、过程可控制、系统可持续"。

欢迎获取《SmartX 超融合技术原理与特性解析合集》系列电子书，了解更多超融合功能特性。

超融合技术原理与特性解析合集（一）虚拟化与存储

超融合技术原理与特性解析合集（二）管理与运维

超融合技术原理与特性解析合集（三）全栈能力