大数据学习(88)-zookeeper实现的高可用(HA)

🍋🍋大数据学习🍋🍋

🔥系列专栏: 👑哲学语录: 用力所能及,改变世界。
💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞


ZooKeeper 实现高可用的能力详解

ZooKeeper 不仅是实现分布式系统高可用(HA)的关键工具,其自身也通过特定架构设计实现了高可用特性。

一、ZooKeeper 自身的高可用实现

1. 集群架构设计

典型部署 :由3/5/7个节点组成的 ZooKeeper Ensemble

复制代码
[Client] → [Leader]
            ↑
[Follower] ←→ [Follower]
复制代码

高可用保障

  • 自动Leader选举:基于ZAB协议(ZooKeeper Atomic Broadcast)

  • 数据一致性:所有写操作通过Leader协调,保证顺序一致性

  • 读操作扩展:Follower可直接处理读请求

2. 容错能力

集群规模 可容忍故障节点数 最少存活节点要求
3节点 1 2
5节点 2 3
7节点 3 4

选举过程示例

  1. 节点启动后进入LOOKING状态

  2. 交换投票信息(包含zxid和serverid)

  3. 获得多数派投票的节点成为Leader

  4. 其余节点成为Follower并同步数据

3. 数据持久化

  • 事务日志:所有写操作先写磁盘日志(顺序IO)

  • 内存快照:定期生成snapshot加速恢复

  • WAL机制:Write-Ahead Logging保证数据不丢失

二、ZooKeeper 如何为其他系统提供高可用

1. 核心功能支持

功能 高可用实现案例
分布式锁 防止多节点同时操作关键资源
服务注册与发现 实时感知服务节点存活状态
配置管理 集群所有节点配置即时同步
Leader选举 确定唯一活跃节点(如HDFS NameNode)

2. 典型集成方案

(1) HDFS NameNode HA
复制代码
graph LR
    ActiveNN[Active NameNode] -->|写入| JN[JournalNodes]
    StandbyNN[Standby NameNode] -->|读取| JN
    ZKFC[ZKFC] -->|监控| ZK[ZooKeeper]
    ZKFC --> ActiveNN
    ZKFC --> StandbyNN

故障转移流程

  1. ZKFC检测到Active NN心跳超时

  2. 在ZK创建临时节点尝试接管

  3. 获得锁的Standby NN切换为Active

  4. 通过JournalNodes同步最新状态

(2) Kafka Controller选举
  • 每个Broker在ZK注册临时节点

  • 第一个成功创建/controller节点的Broker成为Controller

  • Controller故障时自动重新选举

三、ZooKeeper高可用配置实践

1. 关键配置参数

zoo.cfg

复制代码
# 集群节点配置
server.1=zk1:2888:3888  # 2888用于Leader通信,3888用于选举
server.2=zk2:2888:3888
server.3=zk3:2888:3888

# 会话超时控制
tickTime=2000  # 基础时间单元(ms)
initLimit=10   # 初始化连接最长等待tick数
syncLimit=5    # 心跳请求最长等待tick数

# 数据目录
dataDir=/var/lib/zookeeper
dataLogDir=/var/log/zookeeper  # 事务日志单独目录

2. 监控指标

关键监控项

  • zk_avg_latency:平均请求处理时间(应<50ms)

  • zk_outstanding_requests:排队请求数(应<10)

  • zk_followers:正常Follower数量

  • zk_znode_count:znode总数监控

四字命令检查

复制代码
echo stat | nc localhost 2181  # 查看状态
echo mntr | nc localhost 2181  # 监控指标

四、ZooKeeper高可用的局限性

  1. 写性能瓶颈

    • 所有写操作必须通过Leader

    • 集群规模扩大时写吞吐量不会增加

  2. 脑裂风险

    • 网络分区可能导致双Leader

    • 需要通过quorum配置预防(N/2+1)

  3. 会话风暴

    • 大量客户端重连可能导致集群过载

    • 解决方案:客户端采用指数退避重试

ZooKeeper通过其分布式共识算法和集群架构,既能保障自身服务的高可用,又能作为基础设施为其他分布式系统提供可靠的协调服务。正确配置和使用时,ZooKeeper集群可以实现99.99%以上的可用性。

这里值得说明的是:初始 LOOKING 状态的定义

在 ZooKeeper 集群中,LOOKING 是服务器节点启动或发现无 Leader 时进入的特殊状态,表示该节点正在主动寻找或参与 Leader 选举。这是 ZooKeeper 实现高可用的核心机制之一。

当当前的Leader崩溃

  1. Follower检测到Leader心跳超时(默认2*tickTime)

  2. 所有Follower转入LOOKING状态

  3. 启动新一轮选举,选择zxid最大的节点

  4. 新Leader产生后同步数据

相关推荐
AI大数据智能洞察2 小时前
大数据领域数据仓库的备份恢复方案优化
大数据·数据仓库·ai
AI应用开发实战派2 小时前
大数据领域数据仓库的自动化测试实践
大数据·数据仓库·ai
AI算力网络与通信2 小时前
大数据领域 Hive 数据仓库搭建实战
大数据·数据仓库·hive·ai
Leo.yuan2 小时前
ODS 是什么?一文搞懂 ODS 与数据仓库区别
大数据·数据仓库·数据挖掘·数据分析·spark
拾光师5 小时前
Hadoop RPC深度解析:分布式通信的核心机制
大数据·hadoop
isNotNullX6 小时前
ETL详解:从核心流程到典型应用场景
大数据·数据仓库·人工智能·架构·etl
Pluchon6 小时前
硅基计划4.0 算法 字符串
java·数据结构·学习·算法
折翅鵬7 小时前
Android 程序员如何系统学习 MQTT
android·学习
云和数据.ChenGuang7 小时前
大型企业级金融信贷平台需求报告
大数据·金融·毕业设计
~无忧花开~7 小时前
JavaScript学习笔记(十五):ES6模板字符串使用指南
开发语言·前端·javascript·vue.js·学习·es6·js