详解超融合如何支持虚拟机同步复制与 CloudTower 高可用,构建全栈容灾体系

对于企业关键业务系统,传统容灾方案大多聚焦于数据平面,强调数据备份与复制能力,却往往忽视业务平面与控制平面的协同建设,导致在真实灾难场景中,虽然"数据可恢复",但业务恢复复杂、过程不可控,整体容灾能力难以满足关键业务连续性需求。

榫卯超融合 6.3 引入虚拟机粒度的原生同步复制(RPO=0)和 CloudTower 管控平台高可用(HA)能力,提供可对标传统高端存储阵列的原生容灾能力,结合已有的异步复制与备份能力,形成覆盖数据保护、业务恢复与平台管控的全栈容灾闭环。

主流基础架构层容灾方案的挑战

针对核心业务系统容灾,企业常见的建设方案在基础架构层面大致可以分为两类路径。一类是基于传统三层架构构建的容灾体系,通常依赖外部存储阵列、复制软件以及多组件协同实现数据保护与业务恢复,但在实践中往往存在以下问题:

  • 成本高昂:依赖专用存储设备与多套系统叠加,建设与运维投入较大。
  • 架构复杂:计算、存储、网络与容灾能力分散在不同系统中,部署与运维门槛高。
  • 能力割裂:数据复制、业务恢复与管理控制分属不同层面,难以形成统一的容灾体系。

另一类是基于超融合的拉伸集群方案,虽然相比传统方案简化了架构,并提供了更高实时性的数据保护能力,但在实际落地中仍然存在一定的局限:

  • 以集群为单位进行保护:难以按业务重要性进行差异化容灾,非核心业务也需承担同等级的保护成本。
  • 网络要求:依赖稳定、低延迟的 L2 网络,网络波动可能对业务连续性产生较大影响。
  • 可验证性不足:方案侧重高可用,但在数据保护策略灵活性、灾备编排及恢复演练验证方面仍存在局限。

考虑到企业容灾越来越强调"数据保护、业务连续性与控制能力一体化"的完整体系,如何在保证架构简洁 的前提下,兼顾实时性灵活性可验证性 ,构建一套覆盖不同故障场景的容灾能力版图,成为超融合平台进一步演进的关键方向。

榫卯超融合 6.3:原生同步复制 + CloudTower 高可用,实现全栈容灾升级

榫卯超融合 6.3 致力于在超融合架构内,构建一套对标传统高端存储阵列能力的原生容灾体系。该版本重点强化了两项核心能力:

原生同步复制(RPO=0)

在传统架构中,RPO=0 的同步复制能力通常依赖高端存储阵列实现,部署复杂且成本较高。榫卯超融合 6.3 将这一能力直接内建于超融合体系之中,在国内率先实现虚拟机级别的实时双写与强一致性保障, 在保证数据零丢失 的同时,大幅降低容灾体系的建设复杂度

  • 数据在源站点与目标站点之间同步写入,网络正常情况下可确保任意时刻副本数据一致。
  • 容忍网络抖动,网络延迟或短时中断时自动降级,源端业务写入不中断,网络恢复后自动同步至副本,确保最终一致性。
  • 无需依赖外部存储阵列,在标准超融合架构下即可实现 RPO=0。
  • 以虚拟机为粒度进行保护,兼顾灵活性与精细化管理能力。

CloudTower 管控平台高可用

除了数据层面的保护,企业容灾同样依赖稳定可靠的管理与控制能力。榫卯超融合 6.3 同步增强了 CloudTower 管控平台的高可用能力:

  • 支持跨站点部署,避免单点故障影响整体管控。
  • 在站点级故障场景下,仍可持续提供资源调度与容灾编排能力
  • 确保容灾过程中"有能力执行恢复",而不仅仅是"有数据可恢复"。

结合已有的异步复制、备份等灾备能力,榫卯超融合 6.3 已构建起从数据到控制的完整容灾闭环,使企业不仅具备数据恢复能力,更具备业务连续运行与统一管理能力,真正实现全栈容灾能力升级。

技术解读:虚拟机级同步复制实现 RPO=0

相比构建双活拉伸集群,同步复制功能无需对整个集群进行保护,降低整体建设成本与架构复杂度,同时具备对容灾链路抖动的自适应能力,可在一定程度上缓冲网络波动对生产业务的影响。

实现机制

数据同步机制

数据同步机制包含复制任务和同步任务两个能力。

【复制任务】用于完成主备之间的初始数据同步,建立一致的数据基线,包括:

  • 对源端虚拟机执行全量数据复制,在目标端创建对应的副本虚拟机。
  • 构建主备数据的一致性起点,为后续同步阶段奠定基础。

【同步任务】主要包括:

  • 增量追平阶段:对复制期间产生的差异数据进行追平,将最新数据同步至副本端,确保主备数据达到严格一致状态,从而平滑过渡至实时同步阶段。
  • 实时双写阶段:进入已同步状态后,所有写入同时作用于源端与目标端,且需在两端均完成后才返回成功;在网络正常情况下,任意时刻主备数据保持强一致,实现 RPO= 0。
故障处理机制
  • 故障转移:当源站点不可用时,可将业务切换至副本虚拟机运行,由副本侧接管生产负载。
  • 故障恢复:当原站点恢复后,复制服务执行反向复制,将故障转移期间副本虚拟机产生的增量数据同步回原虚拟机,以恢复主备一致性关系。

注:当前仅支持人工执行故障转移与故障恢复操作。

功能亮点

自动降级避免影响生产

在网络波动或写入压力上升等场景下,系统可自动触发降级机制,优先保障生产业务的稳定运行,避免因同步复制带来的性能抖动或业务中断风险。

灵活的恢复点机制

支持多种恢复点生成方式。在数据处于"已同步"状态时,可周期性生成恢复点;当同步复制出现异常时,系统也可自动生成恢复点,尽可能保留关键数据。通过引入恢复点机制,用户在故障恢复时可基于不同时间点进行选择,从而提升恢复的灵活性与可控性。

多种方式提升恢复效率
  • 网络映射:在故障切换过程中,可基于预设策略自动完成副本虚拟机的网络与 IP 配置,适配复杂网络环境下的灾备部署需求,减少人工干预,加快业务接管速度。对于源端与副本位于同一 VPC 与子网的场景,还可进一步实现网络层面的高可用能力。
  • 灾难恢复编排:支持批量执行故障处理,并可定义虚拟机的启动顺序及启动延迟,确保业务按照依赖关系有序恢复,避免因启动顺序不当导致的服务异常。
高效容灾演练方式

提供多种容灾演练方式,兼顾安全性与真实性,满足企业日常演练与合规要求:

  • 不影响生产的模拟容灾演练模式:在演练过程中,副本虚拟机运行在隔离网络中,支持访问恢复点数据、验证业务可用性,确保灾备流程可靠可行,满足日常合规检查和恢复验证需求。
  • 贴近真实场景的容灾演练模式:进行计划内的故障切换,按照实际容灾流程完成业务接管与切换操作,全面验证系统在真实故障场景下的可恢复能力与运行稳定性。

不同容灾方案对比

拉伸集群双活 vs 同步复制

典型适用场景

基于上述差异,两类方案在实际选型时可以遵循以下思路:

**【拉伸集群双活】**适用于对业务连续性要求极高的核心系统:

  • 业务不可中断:支持自动故障切换,RTO 极低(分钟级甚至更低)。
  • 应用具备集群能力:如 Oracle RAC 等依赖共享存储或多节点协同的应用。
  • 基础设施条件成熟:站点间具备稳定低延迟网络,且资源投入充足。

**【同步复制】**适用于兼顾数据安全与成本控制的关键业务:

  • 数据不能丢,但允许短暂中断:提供 RPO=0 的数据保护,切换可人工介入。
  • 资源投入更可控:仅保护关键业务,无需整体双活部署。
  • 网络条件更宽松:支持跨 L3 网络,容忍一定延迟与抖动。
  • 架构更灵活:可独立规划生产与灾备资源,逐步演进容灾能力。
传统三层架构容灾方案 vs 超融合同步复制

典型适用场景

**【传统三层架构容灾方案】**适用于以存储为核心、体系较为成熟的数据中心环境:

  • 已有存储体系完善:已部署中高端存储阵列,并具备相应复制与容灾能力。
  • 对标准化与成熟方案有要求:更倾向采用经过长期验证的存储级容灾机制。
  • 资源与预算相对充足:能够支撑多套系统建设及持续运维投入。

**【同步复制】**适用于追求架构简化与灵活容灾能力的环境:

  • 希望降低架构复杂度:通过一体化平台整合计算、存储与容灾能力。
  • 关注业务视角的数据保护:按虚拟机粒度对核心业务提供 RPO=0 保护。
  • 统一运维与监控:平台内统一管理数据复制、故障切换与恢复流程,降低运维复杂度。

技术解读:CloudTower 管控平台高可用

通过 CloudTower 管控平台高可用能力,榫卯超融合 6.3 不仅可以保障数据平面的连续性,更能实现跨站点管理平面的自动故障切换,提供更完整的容灾保障。

高可用架构

CloudTower 由无状态服务与有状态服务组成,其中有状态服务主要包括数据库与文件数据。为保障平台在异常场景下的持续可用性,支持通过跨节点部署实现高可用能力,对网络稳定性与延迟具备一定要求。当前整体采用"主动节点 + 被动节点 + 仲裁节点"的架构设计:

  • 主动节点:当前承载管理服务的实例,对外提供完整的管控能力。
  • 被动节点:与主动节点保持数据同步,在故障发生时可快速接管服务。
  • 仲裁节点:负责健康状态监测与故障判定,触发自动切换,避免异常状态下的误切换。

在数据层面,数据库通过同步机制在主动与被动节点之间保持一致,确保在切换发生时,被动节点能够基于最新数据快速接管服务,实现管理平面的持续可用。

功能亮点

  • 自动故障检测与切换:支持对集群与关键组件进行自动健康检测,在发生异常时自动触发故障切换机制,实现业务快速接管,提供 RPO = 0,RTO ≤ 5 分钟的连续性保障。
  • 跨集群与跨数据中心容灾支持:支持跨集群、跨数据中心的容灾部署能力,容灾范围可扩展至同城多数据中心级别,满足不同等级业务的高可用与灾备需求。
  • 健康监控与故障告警机制:提供对 HA 集群状态的持续监控能力,在资源异常、节点故障或服务不健康等场景下,能够及时感知并触发告警,帮助运维人员快速定位与处理问题。

总结

针对关键应用场景更严格的容灾要求,榫卯超融合 6.3 对容灾体系进行系统性升级,围绕数据、业务与控制三大平面进行统一设计与能力增强,构建从数据保护到业务恢复、再到平台管控的全栈容灾的数据保护能力。

  • 业务平面:辅助恢复,提升操作效率

    通过故障处理机制和网络重映射能力,支持业务在灾难场景下按策略快速接管与有序恢复,降低人工干预复杂度,提升业务恢复的确定性与效率。

  • 控制平面:从单点管理到高可用调度
    在原有 CloudTower 备份管理能力基础上,引入 CloudTower 高可用架构,确保在灾难场景下管理平台依然持续可用,实现容灾过程中的统一调度与操作不中断。

三者协同之下,形成覆盖数据保护、业务恢复与平台管控的全栈容灾闭环,使容灾能力不再局限于"数据可恢复",而是进一步演进为"业务可恢复、过程可控制、系统可持续"。

欢迎获取《SmartX 超融合技术原理与特性解析合集》系列电子书,了解更多超融合功能特性。

超融合技术原理与特性解析合集(一)虚拟化与存储

超融合技术原理与特性解析合集(二)管理与运维

超融合技术原理与特性解析合集(三)全栈能力

推荐阅读:

榫卯超融合 6.3 发布:引领超融合关键业务承载新标准

相关推荐
志凌海纳SmartX4 个月前
如何在超融合架构下实现 CPU 资源管理优化?
虚拟化·smartx
志凌海纳SmartX5 个月前
高端制造数据中心如何构建?某高铁研发机构以国产企业云推动“中国智造”
制造·smartx·企业云
志凌海纳SmartX8 个月前
金融专题|某跨境支付机构:以榫卯企业云平台 VPC 功能保障业务主体安全
私有云·vpc·smartx
志凌海纳SmartX8 个月前
SmartX 用户建云实践|富士康:基于榫卯企业云平台构建分布式云,支撑全球多地工厂重要产线
分布式·私有云·smartx·企业私有云·分布式企业云
Tassel_YUE1 年前
SmartX分享:SMTX ZBS 中 RDMA 技术简介
分布式存储·rdma·技术分享·块存储·smartx
Amd7941 年前
数据库高可用性与容灾
负载均衡·数据库集群·容灾·灾难恢复·业务连续性·数据库复制·高可用性
万博智云OneProCloud2 年前
2023年度五大容灾关键词
关键词·容灾
G皮T3 年前
【系统架构】什么是集群?为什么要使用集群架构?
架构·系统架构·负载均衡·集群·高可用·容灾
yuzhangfeng3 年前
【多AZ】浅述云计算多az
云计算·aws·高可用·容灾