【Hadoop入门】Hadoop生态之ZooKeeper简介

1 什么是ZooKeeper？

在分布式系统的世界里，协调各节点之间的工作是一项复杂而关键的任务。ZooKeeper正是为解决这一问题而生的开源分布式协调服务，它像一个高效的"和事佬"，帮助分布式系统中的各个组件达成一致、同步状态并维持秩序。

统一命名服务：在分布式环境中为资源提供全局唯一的命名路径

状态同步服务：确保集群中各节点对系统状态有一致的认知

集群管理：监控节点存活状态，处理主节点选举等

配置管理：集中管理并同步分布式系统的配置信息

分布式锁服务：提供跨进程的互斥访问机制

HBase：依赖ZooKeeper管理RegionServer状态和元数据

HA NameNode：使用ZooKeeper实现HDFS NameNode的故障转移

YARN：利用ZooKeeper进行资源管理器的故障恢复

Kafka：使用ZooKeeper管理broker信息、主题配置和消费者偏移量

主节点选举

分布式队列

分布式屏障

服务发现

ZooKeeper采用类似文件系统的 层次化命名空间 结构，每个节点称为 znode
znode可以存储少量数据（默认上限1MB），并支持以下几种类型：

持久节点：除非显式删除，否则一直存在

临时节点：客户端会话结束时自动删除

顺序节点：名称自动附加单调递增的序号

ZooKeeper集群通常由奇数个服务器组成（3、5、7、9等），采用Zab协议保证数据一致性：

领导者选举：集群启动或领导者失效时选举新的领导者

原子广播：所有写请求由领导者处理并广播给追随者

写请求：必须由领导者协调，获得多数派确认

读请求：可由任何服务器直接响应，保证高吞吐

顺序一致性：客户端的更新请求按发送顺序执行

原子性：更新操作要么全部成功，要么全部失败

单一系统映像：客户端无论连接到哪个服务器，看到的数据都是一致的

可靠性：一旦更新被应用，将一直保持直到被覆盖

及时性：客户端在一定时间内能看到最新的系统状态

在分布式系统中自行实现可靠的协调服务极其复杂，容易出错，zooKeeper提供了：

现成的解决方案：避免重复造轮子

高可靠性：经过大规模生产环境验证

高性能：读操作吞吐量极高

丰富的原语：支持各种分布式模式实现

作为分布式系统的基石，ZooKeeper虽然不直接处理业务数据，却在幕后默默协调着各种关键操作。从HBase的RegionServer管理到Kafka的broker协调，从HDFS的故障转移到分布式锁的实现，ZooKeeper的身影无处不在。