灾难恢复（DR）：RTO/RPO 定义、冷备/热备/双活架构

星哥说事2025-11-06 9:50

灾难恢复（DR）：RTO/RPO 定义、冷备/热备/双活架构

一、RTO 与 RPO 定义

RTO（Recovery Time Objective，恢复时间目标）
指系统在灾难发生后，允许的最长不可用时间。
- 举例：RTO = 2 小时 → 系统必须在 2 小时内恢复上线。
RPO（Recovery Point Objective，恢复点目标）
指系统在灾难发生后，允许的数据丢失时间范围。
- 举例：RPO = 5 分钟 → 最多只能丢失 5 分钟内的数据知乎专栏华为云。

👉 RTO 决定恢复速度，RPO 决定数据完整性。两者共同决定容灾架构的设计与投入。

二、常见容灾架构模式

架构模式	定义	RTO	RPO	成本	典型场景
冷备（Cold Standby）	仅做数据备份，无备用系统运行，灾难后需人工恢复环境	数小时～数天	数小时以上	低	历史归档、非核心业务
热备（Hot Standby）	备用系统实时同步，可随时接管	分钟级	秒级甚至 0	高	金融交易、电商支付
双活（Active-Active）	两地机房同时对外提供服务，实时同步，互为主备	秒级	接近 0	极高	核心金融、电信、跨区域业务

注：冷备强调"低成本+长恢复"，热备强调"快速切换"，双活则追求"零中断、零丢失"，但投入最大 oneprocloud.com.cn。

三、架构选择的思考维度

业务重要性
- 核心交易系统 → 双活/热备
- 内部办公系统 → 冷备/温备
预算投入
- 冷备成本最低，但恢复慢
- 双活需高昂带宽、存储与同步机制
合规与 SLA 要求
- 金融、医疗、电信等行业往往要求 RTO < 1 小时，RPO ≈ 0
- 政府或制造业 ERP 系统可接受 RTO 数小时，RPO 分钟级

四、总结

RTO/RPO 是容灾设计的核心指标，决定了恢复速度与数据完整性。
冷备 → 热备 → 双活，体现了从低成本到高可用的演进路径。
企业应结合 业务关键性、预算、合规要求，选择合适的 DR 策略，而非盲目追求"双活"。

上一篇：Python编程实战面向对象与进阶语法迭代器与生成器

下一篇：设计模式之单例模式：一个类就只有一个实例

热门推荐

01GitHub 镜像站点 02Labelme从安装到标注：零基础完整指南 03Linux下V2Ray安装配置指南 04安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）05jdk21下载、安装（Windows、Linux、macOS）06Claude Code 2.1.2 升级报错？别折腾了，一行命令搞定 072025-04-03 Latex学习1——本地配置Latex + VScode环境 08【踩坑笔记】50系显卡适配的 PyTorch 安装 09UV安装并设置国内源 10KGG转MP3工具|非KGM文件|解密音频