redis中的容灾机制

Redis 的容灾机制（Disaster Recovery）是一个多层级的体系，从数据持久化 到节点故障转移 ，再到跨地域灾备，涵盖了不同粒度的故障应对方案。

以下是 Redis 容灾机制的完整解析：

这是容灾的基石，确保即使 Redis 进程崩溃或服务器断电，数据也能从硬盘恢复。

机制	描述	优点	缺点
RDB (快照)	定期将内存数据生成快照文件（dump.rdb）保存到磁盘。	• 恢复速度快（适合冷备） • 文件体积小	• 两次快照间的数据会丢失 • 频繁 fork 子进程可能阻塞服务
AOF (日志)	将所有写操作记录追加到日志文件（appendonly.aof）。	• 数据更安全（默认每秒刷盘，最多丢 1 秒数据）	• 文件体积大 • 恢复速度慢（需重放命令）
混合持久化	Redis 4.0+ 引入，AOF 重写时将 RDB 快照放在 AOF 文件开头。	• 结合了 RDB 的快速恢复和 AOF 的高可靠性	• 4.0 版本之前的 Redis 不兼容

最佳实践 ：生产环境通常建议同时开启 RDB 和 AOF。AOF 用于保证数据尽量不丢失，RDB 用于快速启动和冷备份（如每天拷贝一份 RDB 到远程存储 S3）。

当运行中的 Redis 节点发生故障时，需要自动切换以恢复服务。

适用于主从架构。哨兵是一组独立的进程，负责监控 Redis 节点。

监控与判定：
- SDOWN (主观下线)：单个哨兵发现 Master 无响应。
- ODOWN (客观下线)：多数哨兵（Quorum）确认 Master 挂了，触发故障转移。
自动故障转移步骤：
1. 哨兵集群选举出一个 Leader（领头哨兵）。
2. Leader 从 Slave 中选出一个新的 Master（依据优先级、复制偏移量 offset、RunID）。
3. 通知其他 Slave 指向新 Master，并通知客户端新 Master 的地址。

适用于分布式/分片架构。数据分散在多个 Master 节点，每个 Master 都有 Slave。

去中心化监控 ：节点之间通过 Gossip 协议交换状态。如果半数以上 Master 认为某个 Master 挂了，则标记为 FAIL。
Failover 机制：
- 故障 Master 的 Slave 发现主节点挂了，会发起选举。
- 其他健康的 Master 节点投票，获得多数票的 Slave 升级为新 Master。
- 特点：不需要额外的哨兵进程，故障转移在集群内部自动完成。

针对机房断电、火灾等"整个数据中心不可用"的极端情况。

机制：通过伪装成 Slave 或使用同步工具，将数据实时同步到备用机房。
- 开源方案 ：使用工具如 RedisShake 或 RIOT 进行跨网络同步。
- 云服务方案：AWS ElastiCache Global Datastore 或 Google Cloud Memorystore 提供托管的跨区域复制。
适用场景：需要分钟级恢复（RTO），但备用机房通常只读。

机制：多个数据中心同时读写，数据双向同步。
难点：数据冲突解决（Conflict Resolution）。开源 Redis 官方不直接支持多活。
解决方案 ：通常需要使用 Redis Enterprise 或 公有云企业版 ，它们利用 CRDT（无冲突复制数据类型）技术来解决并发写冲突。

如何选择？