ZK节点宕机如何处理?
- ZK服务的机制是只要存活节点超过半数就依然可以提供服务。少于一半的话集群会失效。
- 如果是Follower宕机,其他Follower上是有副本的,还可以继续提供服务。
- 如果是Leader宕机,Zookeeper会选举出新的Leader。
ZAB协议的核心内容?
ZAB协议分为崩溃恢复 和消息广播
- 当Leader节点出现宕机,崩溃的时候,就进入崩溃恢复模式,选举产生新的Leader。
- 当集群中的过半机器完成状态同步(数据同步)之后就会进入到消息广播模式
- 这时如果一台新的机器想要加入进来,就会先自动进入恢复模式,找到Leader服务,完成数据同步,完成之后就可以成为Follower一起参与到消息广播流程中。
状态切换
- 如果Leader宕机,重启。当集群中的Follower过半不能与Leader进行通信的时候,ZK集群会进入到崩溃恢复模式,发起新的一轮Leader选举和同步。
保证消息有序
- 在整个消息广播过程中,Leader会将每一个事务转换成proposal进行广播,在广播这个事务proposal之前,Leader会先为这个事务生成一个全局递增的唯一ID。称之为事务ID(zxid),由于ZAB协议保证按照严格的顺序性。因此每一个proposal都按照zxid的顺序来进行处理。
Zookeeper如何保证是如何保证事务的顺序一致性?
zookeeper采用了全局递增的事务id来标识,所有的proposal在提出的时候都会加上一个zxid,zxid是一个64位的数字,高32位是epoch(时期),用来标识Leader的周期,如果有新的Leader产生,epoch会递增,低32位用来自增计数。当新的proposal产生的时候会经历二阶段提交过程,首先会向其他server发送事务请求,当过半的server都能够执行并且执行成功的时候,那么就开始执行。