目录
[二、KingbaseES 高可用需求分析与架构设计逻辑](#二、KingbaseES 高可用需求分析与架构设计逻辑)
[(二)MAA 最大可用性架构三级体系](#(二)MAA 最大可用性架构三级体系)
[三、KingbaseES 高可用核心架构详解](#三、KingbaseES 高可用核心架构详解)
[(一)KingbaseES 读写分离集群(KingbaseRWC)](#(一)KingbaseES 读写分离集群(KingbaseRWC))
[(二)KingbaseES Clusterware 共享存储集群](#(二)KingbaseES Clusterware 共享存储集群)
[(三)Kingbase FlySync 异构数据同步架构](#(三)Kingbase FlySync 异构数据同步架构)
[四、KingbaseES 最大高可用核心组件特性](#四、KingbaseES 最大高可用核心组件特性)
[(一)金仓数据守护集群(Kingbase Data Watch)](#(一)金仓数据守护集群(Kingbase Data Watch))
[(二)KingbaseHA 高可用软件](#(二)KingbaseHA 高可用软件)
[(三)sys_rman 备份恢复管理工具](#(三)sys_rman 备份恢复管理工具)
[七、KingbaseES 高可用核心优势](#七、KingbaseES 高可用核心优势)
正文开始------
在金融、政务、能源、通信、交通等关键行业核心业务场景中,数据库服务的连续性与数据安全性直接决定业务生命线。一旦数据库发生宕机、数据丢失或服务中断,将直接造成经济损失、用户流失、品牌信誉受损,甚至引发合规风险。KingbaseES 作为中电科金仓自主研发的国产企业级关系型数据库,深度融合高可用设计理念,以MAA 最大可用性架构 为技术核心,构建覆盖计划内停机、计划外故障、本地高可用、异地容灾、同构 / 异构数据迁移的全栈高可用解决方案,确保核心业务7×24 小时不间断稳定运行 ,实现RTO 秒级、RPO≈0的极致可靠能力,全面满足关键业务对高可用、高可靠、高性能的严苛要求。
一、高可用核心定义与业务价值
高可用(HA,High Availability)是指系统在面临硬件故障、软件异常、人为操作、自然灾害等各类风险时,仍能持续对外提供服务,最大限度减少停机时间与数据丢失的能力。KingbaseES 基于企业级业务需求,将高可用落地为四大核心特性,形成完整的高可用能力闭环:
-
可靠性:采用可靠硬件与高可用软件协同设计,集群架构下单节点故障不影响整体服务,具备强大的容错能力;
-
可恢复性:针对不同故障类型提供匹配的恢复策略,确保在业务 SLA 约定时间内完成服务恢复,满足 RTO 与 RPO 要求;
-
自动故障检测:内置健康检查与故障探测机制,秒级发现节点、网络、存储、数据库实例等异常,无需人工干预;
-
连续服务:支持软硬件升级、配置变更、数据迁移、扩缩容等计划内维护操作全程对用户透明,实现零停机或秒级中断。
在量化指标上,可用性以年度服务可用率 衡量,KingbaseES 高级高可用架构可实现99.999% 可用性,年允许停机时间不超过 5 分钟,完美适配金融交易、政务核心、工业控制等对连续性要求极高的场景。同时,高可用方案可有效降低停机代价,避免因服务中断导致的业务停滞、客户投诉、合规处罚等问题,为企业数字化转型提供坚实的数据底座支撑。
二、KingbaseES 高可用需求分析与架构设计逻辑
KingbaseES 高可用方案并非单一架构适配所有场景,而是基于业务影响分析、停机代价、RTO、RPO、管理能力、投资成本六大维度,先明确业务高可用需求,再匹配最优架构,确保高可用方案与业务价值、成本投入精准匹配。
(一)核心需求指标定义
-
恢复时间目标(RTO):系统从故障发生到完全恢复业务的最大允许时间,体现业务对停机时间的容忍度;
-
恢复点目标(RPO):故障发生后允许丢失的最大数据量,体现业务对数据丢失的容忍度;
-
管理能力目标:高可用方案的运维复杂度,匹配企业运维团队能力,避免过度复杂导致的运维风险;
-
投资成本与回报:综合评估硬件采购、实施部署、日常运维、人员培训等全生命周期成本,平衡高可用能力与投入产出比。
(二)MAA 最大可用性架构三级体系
KingbaseES MAA(Maximum Availability Architecture)最大可用性架构,定义初级、中级、高级三级保护体系,各层级能力向下兼容,逐步升级,覆盖从非核心测试环境到核心生产业务的全场景需求:
-
初级保护架构:面向非核心业务、测试环境,以自动重启、备份恢复为核心,基础故障快速恢复,维护操作以离线为主,成本极低;
-
中级保护架构:面向主流生产业务,集成读写分离集群、Clusterware 共享存储集群,支持节点故障自动切换,计划内维护可滚动完成,RTO 秒级、RPO=0;
-
高级保护架构:面向金融、电信等极致高可用需求,新增异构数据同步能力,实现跨可用区、跨地域容灾,应对站点级灾难,全部维护操作零停机,RPO≈0、RTO 秒级。
三、KingbaseES 高可用核心架构详解
KingbaseES 提供读写分离集群、Clusterware 共享存储集群、FlySync 异构数据同步三大高可用核心架构,搭配数据守护、备份恢复、坏块检测等组件,形成完整的高可用技术栈。
(一)KingbaseES 读写分离集群(KingbaseRWC)
读写分离集群基于金仓数据守护集群软件(Kingbase Data Watch) 构建,采用一主一备、一主多备架构,通过流复制技术实现数据实时同步,是 KingbaseES 高可用的主流选型。

-
核心组件
-
主节点(Primary Node):对外提供读写服务,处理业务交易请求;
-
备节点(Standby Node):实时同步主库数据,对外提供只读服务,承载查询负载;
-
守护进程(REPMGRD/KBHA):负责节点健康检查、故障探测、自动故障切换、VIP 管理;
-
备份节点(Repo Node):提供备份存储与管理,保障数据可恢复。
-
-
核心功能特性
- 多实例冗余:支持实例级、异地容灾切换,单节点故障不影响业务;
- 存储级容灾:节点独立存储,多副本数据冗余,任一节点存储完好即可恢复介质故障;
- 读写负载均衡:读请求自动分发至备节点,降低主库压力,提升系统吞吐率;配套集群读写路由简易配置脚本,一键规整读写分流规则,适配全业务端口。
sql
# KingbaseES读写分离集群路由简易配置脚本
# 配置主库专属写业务路由地址
repmgr config set primary_conninfo 'host=192.168.1.100 port=54321 user=repuser password=Rep@123456'
# 批量绑定多备库只读负载均衡节点
repmgr config add standby_route 'host=192.168.1.101,192.168.1.102 port=54321'
# 重载集群路由配置,业务无感知生效
kbha reload-config
- 自动故障切换:主节点故障时,备节点秒级升主,业务无感知,可手动校验集群切换就绪状态。
sql
# 实时查询集群主备节点运行健康状态
repmgr cluster show
# 模拟主节点离线故障探测,触发自动切换预校验
kbha fault-detect check-primary-offline
# 切换完成后,核验新主库读写服务可用性
ksql -h 192.168.1.101 -p 54321 -d business_db -c "SELECT now(),current_role;"
- 坏块检测与修复:内置数据校验机制,实时检测并修复数据坏块,保障数据完整性,搭配内置校验命令快速巡检。
sql
# 全库在线扫描物理、逻辑坏块,生成巡检日志
sys_checksums scan-full -D /kingbase/data/primary --log-path=/kingbase/log/block_check.log
# 调用集群副本资源,自动修复已识别轻度坏块
sys_block_repair auto-fix --cluster-mode=rw-cluster
适用场景:政务核心系统、企业 ERP、电商交易、医疗 HIS 系统等主流核心业务,兼顾高可用与读写性能。
(二)KingbaseES Clusterware 共享存储集群
Clusterware 是金仓自主研发的集群资源管理软件,基于共享存储架构构建多节点高可用集群,实现资源统一管理与多活服务。

核心能力
- 全局资源统一调度:统一管理 IP、服务、存储等集群资源,避免资源冲突,专属集群资源绑定指令一键管控。
sql
# Clusterware注册虚拟业务IP集群全局资源
ks-cluster resource add vip-resource --ip=192.168.1.200 --netdev=eth0
# 绑定共享存储磁盘阵列至集群所有节点,统一调度管控
ks-cluster resource add storage-resource --disk=/dev/sdb1 --mount=/kingbase/share_data
# 查看全量集群资源运行挂载状态,排查资源异常
ks-cluster resource list --detail
- 共享存储多活:多节点共享同一存储设备,支持并行服务,内存融合技术提升并发性能;
- 去中心化架构:无中心节点瓶颈,高吞吐、高负载承载能力强;
- 故障自动处置:节点故障时快速切换,RTO 秒级,数据零丢失,故障后一键核验集群自愈效果。
sql
# 检测异常节点并自动隔离,规避集群脑裂风险
ks-cluster node fence faulty-node-01
# 查看集群故障切换全流程日志,核对切换耗时
ks-cluster log query --event=failover --last=10min
# 校验多节点共享存储读写权限一致性,保障业务正常读写
ksql -h 192.168.1.200 -p 54321 -c "CHECKPOINT; SELECT * FROM pg_stat_activity;"
适用场景:高并发交易系统、大型企业核心数据库、需要多节点并行承载的业务场景。
(三)Kingbase FlySync 异构数据同步架构
FlySync 是金仓自主研发的异构数据同步软件,实现同构 / 异构数据库间实时数据同步,是跨平台、国产化替代、异地容灾的核心组件。

核心功能
异构兼容:支持 KingbaseES、Oracle、MySQL 等多数据库实时同步,适配国产化替代场景,基础同步链路快速搭建脚本。
sql
# FlySync初始化Oracle至KingbaseES异构同步链路
flysync init-link --source-type=oracle --source-ip=192.168.2.50 --source-db=ORCLDB \
--target-type=kingbase --target-ip=192.168.1.100 --target-db=business_db
# 全量基线数据一键同步,不占用业务高峰带宽
flysync full-sync --link-name=ora2kes-link --batch-size=10000
# 开启实时增量同步,保障两侧数据毫秒级一致
flysync start-realtime --link-name=ora2kes-link
零停机迁移:双轨运行、平滑切换,数据库升级、平台迁移无业务中断;
异地容灾:跨地域数据实时复制,应对机房断电、自然灾害等站点级故障;
部分数据同步:支持按库、按表同步,降低带宽消耗与同步延迟,精细化管控同步对象。
sql
# 仅同步核心业务订单、用户两张核心数据表,过滤运维日志数据表
flysync filter-table --link-name=cross-city-link --include=t_order,t_user --exclude=t_operation_log
# 限制跨地域同步带宽峰值,避免挤占主干业务网络
flysync bandwidth-limit --link-name=cross-city-link --max-rate=10Mbps
# 实时监控异地同步延迟,提前预判容灾链路风险
flysync monitor latency --link-name=cross-city-link --alert-threshold=500ms
适用场景:数据库国产化替代、跨地域容灾、异构数据库迁移、版本零停机升级。
(四)三大架构核心能力对比
|--------|---------------|--------------------|--------------|
| 对比维度 | 读写分离集群 | Clusterware 共享存储集群 | FlySync 异构同步 |
| 数据同步方式 | 物理流复制 | 共享存储 | 逻辑复制 |
| RPO | 同步模式 0 丢失 | 0 丢失 | 接近 0 丢失 |
| RTO | 秒 - 分钟 | 秒 - 分钟 | 秒 - 分钟 |
| 存储要求 | 节点独立存储 | 专用共享存储 | 无特殊要求 |
| 网络限制 | 无,支持异地 | 同子网 | 无,支持跨地域 |
| 核心优势 | 读写分离、存储冗余、适配广 | 多活高吞吐、资源统一管理 | 异构兼容、零停机迁移 |
| 成本 | 中等 | 较高 | 灵活可控 |
四、KingbaseES 最大高可用核心组件特性
除三大架构外,KingbaseES 内置多款高可用专属组件,全面强化故障自愈、数据保护、在线维护能力,构成最大高可用能力底座。
(一)金仓数据守护集群(Kingbase Data Watch)
作为 KingbaseES 高可用的核心基础组件,数据守护集群通过流复制实现主备数据实时同步,提供:
-
7×24 小时不间断服务保障,预防硬件故障、软件崩溃、自然灾害、人为误操作导致的服务中断;
-
主备节点自动切换、故障自动检测、服务自动拉起,无需人工值守;
-
支持同机房、同城、异地多级别容灾部署,适配不同灾备等级需求。
(二)KingbaseHA 高可用软件
专为 Linux 平台设计的数据库高可用管理软件,实现:
-
集群节点故障自动探测,IP、服务资源秒级切换至健康节点;
-
硬件 / 软件故障时业务零中断,实现系统级高可用;
-
简化集群运维,降低人工切换失误风险。
(三)sys_rman 备份恢复管理工具
企业级备份恢复组件,提供:
- 在线全量、增量、归档备份,不阻塞业务读写,增量轻量化备份实操指令。
sql
# 每日凌晨低峰期执行增量备份,缩减备份存储占用
sys_rman backup --backup-type=increment --db-port=54321 --compress-level=3
# 自动清理30天前过期备份,合规释放服务器存储空间
sys_rman purge --retention=30days
- 时间点恢复(PITR),精准回滚人为误操作,误删数据快速恢复实操。
sql
# 指定故障前精准时间节点,一键回滚全量业务数据
sys_rman restore --time="2026-05-06 10:00:00" --data-path=/kingbase/data/primary
# 恢复完成后,校验核心数据表数据完整性,无丢失异常
ksql -p 54321 -c "SELECT count(*) FROM t_order;"
-
支持本地、远程、云存储等多介质备份,数据多副本安全存储;
-
备份自动校验,确保备份文件可恢复、无损坏。
(四)数据损坏检测与修复
通过数据校验和、块完整性检查技术,实现:
-
在线实时检测物理坏块、逻辑坏块,提前发现数据风险;
-
结合集群副本自动修复坏块,无需停机、不影响业务;
-
备份数据坏块检测,确保备份文件可用。
(五)对象在线重定义
支持数据库对象在线逻辑 / 物理重组,实现:
-
在线添加 / 删除字段、重建索引、修改表结构;
-
无锁操作,不阻塞业务读写,彻底解决传统 DDL 锁表问题;
-
无需导入导出,操作高效、数据安全。
五、计划外停机:全故障类型覆盖,自动自愈
KingbaseES 高可用方案全面覆盖站点故障、集群故障、节点故障、网络故障、存储故障、数据损坏、人为错误、响应慢 / 挂起八大类计划外停机场景,提供一站式自愈解决方案。
|----------|---------------------|---------------------------|-----------------------|
| 故障类型 | 典型场景 | 高可用解决方案 | 核心效果 |
| 站点故障 | 机房断电、网络瘫痪、自然灾害 | 读写分离集群跨地域部署、FlySync 异地同步 | 自动切换至备用站点,RPO≈0,业务不中断 |
| 节点故障 | 服务器硬件损坏、操作系统崩溃、实例宕机 | 读写分离集群 / Clusterware 自动切换 | 秒级恢复服务,数据零丢失 |
| 存储故障 | 磁盘损坏、存储阵列失效 | 读写分离集群多副本冗余、备份恢复 | 单存储故障不影响业务,自动切换至健康节点 |
| 数据损坏 | 物理坏块、逻辑损坏、写丢失 | 坏块检测 + 集群副本修复 | 在线修复,无需停机,数据完整 |
| 人为错误 | 误删数据、误改表结构、误删文件 | sys_rman 时间点恢复 | 精准回滚至正常状态,数据可追溯 |
| 响应慢 / 挂起 | 死锁、资源耗尽、锁竞争 | 全链路监控 + 性能告警 | 提前发现风险,快速定位优化,避免宕机 |
MAA 架构下,不同等级方案对应不同故障恢复能力:初级架构自动重启恢复;中级架构实现节点 / 主机故障秒切;高级架构覆盖跨地域灾难,全面保障业务连续性。
六、计划内停机:零中断维护,业务全程无感
传统数据库在版本升级、配置变更、硬件扩容、数据迁移时,往往需要停机维护,造成业务中断。KingbaseES 高可用架构通过滚动升级、在线操作、热替换、双轨运行等技术,实现所有计划内维护操作零停机或秒级中断。
(一)核心维护场景高可用方案
-
数据库软件升级
-
小版本更新:热替换文件,零停机;
-
大版本升级:集群节点滚动升级,逐个节点更新,业务全程在线。
-
-
数据库对象变更
-
在线添加索引、修改表结构、重定义对象,无锁、不阻塞业务;
-
动态调整配置参数,无需重启实例。
-
-
集群扩缩容
-
动态增加备节点,提升读性能与冗余能力;
-
安全删除节点,零停机、无数据丢失。
-
-
数据迁移
-
同平台迁移:物理复制,秒级切换;
-
异构迁移:FlySync 同步,双轨运行,平滑切换;
-
存储迁移:在线数据复制,业务无感知。
-
(二)核心操作代码示例
在线并发创建索引(无锁不阻塞业务)
sql
-- KingbaseES在线创建索引,全程不影响读写业务
CREATE INDEX CONCURRENTLY idx_order_user ON t_order(user_id);
sys_rman 在线全量备份
sql
# 在线全量备份,支持压缩、加密,不阻塞业务
sys_rman backup --backup-type=full --db-port=54321 --db-name=business
# 备份校验,确保备份文件有效
sys_rman validate --db-port=54321
读写分离集群滚动升级(零停机)
sql
# 1. 升级备节点软件
kingbase_ctl upgrade -D /kingbase/data/standby
# 2. 备节点升主,完成自动切换
repmgr standby switchover
# 3. 升级原主节点,加入集群
kingbase_ctl upgrade -D /kingbase/data/primary
七、KingbaseES 高可用核心优势
-
全场景自主可控 全栈组件自研,无第三方依赖,兼容国产芯片、操作系统,适配信创全生态,彻底解决技术 "卡脖子" 问题。
-
极致高可用指标 同步复制模式RPO=0 ,故障自动切换RTO≤30 秒 ,高级架构可用性99.999%,年停机<5 分钟。
-
数据安全全方位保障 内置坏块检测、数据校验、时间点恢复、多副本冗余,防范数据丢失、损坏、误操作,满足等保、行业合规要求。
-
运维极简、成本最优 自动故障切换、在线维护、可视化监控,降低运维难度;读写分离集群复用备机资源,提升硬件利用率,平衡高可用与成本。
-
业务无感体验计划内维护零停机,计划外故障秒自愈,用户无感知,保障业务连续性与用户体验。
结语
KingbaseES 以MAA 最大可用性架构 为核心,融合读写分离集群、共享存储集群、异构数据同步三大核心架构,搭配数据守护、备份恢复、在线维护、坏块修复等全栈高可用组件,构建自动探测、自动切换、自动恢复、全程无感的企业级高可用体系。无论是节点故障、存储损坏、人为误操作,还是机房灾难、版本升级、数据迁移,KingbaseES 都能提供匹配的高可用解决方案,彻底消除数据库服务中断风险。
作为国产数据库标杆产品,KingbaseES 凭借全场景适配、极致可靠、自主可控、极简运维 的核心优势,已广泛应用于金融、政务、能源、通信、医疗等关键行业核心业务场景,成为企业数字化转型中高可用、高可靠、高性能的首选数据库底座,为数字经济高质量发展提供坚实的数据支撑与安全保障。