Kafka 入门到起飞 - 什么是 HW 和 LEO?何时更新HW和LEO呢?

上文我们已经学到,

  • 一个Topic(主题)会有多个Partition(分区)
  • 为了保证高可用,每个分区有多个Replication(副本)
  • 副本分为Leader 和 Follower 两个角色,Follower 从Leader同步数据
  • Leader副本对外提供读写服务
  • 当Leader副本挂掉,从ISR中选一个Follower副本成为新的Leader对外继续提供服务
  • 那么就要保证分区各副本间数据一致性
  • 已提交,Leader副本已经被Follower 都同步的消息
  • 未提交,Leader已经写入,还没有被Follower同步的消息
  • 对消费者而言,已提交的消息都可以拿到
  • Leader 和 Follower副本上都有HW 和 LEO
  • Leader副本除了自己的LEO,还存Follower的LEO

HW (High WaterMarker) 高水位

高水位可以理解为一个横切面,拉齐分区所有副本已经写入的消息,保证HW前的消息你有我有全都有啊,水桶原理

这里要注意,所有副本指的是ISR列表中的同步副本,OSR中同步慢的副本不管

LEO (Log End Offset) 日志末端位移

就是分区该副本下一个消息写入的位移(offset),当前副本最后一条消息的位移是13,下一个消息写入14位置

Follower 副本何时更新LEO呢?

  • 对于Leader副本来说,每次写入消息,都会更新LEO的值
  • Follower 副本不停地向Leader副本发送Fetch请求,一旦获取数据后就写入日志文件中进行备份,同时更新LEO值
  • 其实Follower跟Leader一样,写入数据时更新自己的LEO值

那么Leader 端的Follower的LEO 什么时候更新呢?

  • 当Leader接收到Follower发起的Fetch请求
  • 先从Log文件中读取数据
  • 先更新Leader中存储的Follower的LEO
  • 再将数据返回给Follower
  • 这里会不会存在Leader更新了Follower的LEO,但是Follower实际并没有收到返回的消息,而造成Follower 所在broker 和 Leader所在broker存的LEO值不一致呢?

Follower 何时更新HW呢?

  • Follower写入数据后,会更新自己的LEO值,然后就尝试更新自己的HW值
  • HW值是怎么算的呢?
  • 是根据自己当前LEO值与Leader返回的HW值比较,去较小值作为HW更新
  • 这很好理解,Leader中记录的HW是所有副本HW最小的值,也就是同步最慢的那个副本的LEO,每个副本都需要知道这个事,自己不是最小那就记别人的值

Leader 何时更新HW呢?

  • Leader中存储的HW就是整个分区的HW,直接影响消息对消费者的可见性
  • Leader更新HW有4中情况
    • Leader接收生产者发送过来的消息,写入文件后,检查是否需要更新HW
    • Follower副本选举成为新的Leader是,Kafka会尝试去更新分区HW
    • Broker崩溃,导致副本被踢出ISR,Kafka会检查分区HW是否有被更新的必要
    • Leader处理Follower的Fetch请求是,先从Log读取数据,然后尝试跟新HW值
  • 正常情况下就是2种: leader处理producer请求,leader处理follower的fetch请求

Leader 的HW值是怎么更新的呢?

  • 先选出所有满足条件的副本,ISR同步副本
  • 比较它们的LEO(包括leader的LEO)
  • 选择最小的LEO值作为HW
相关推荐
空中海2 小时前
Kafka Streams、Connect 与生态
分布式·kafka·linq
rockmelodies2 天前
Ghost Bits(幽灵比特位)自查工具发布:检测高位截断与WAF绕过风险
hw·java安全·ghost bits·ghost bits自查工具
Knight_AL2 天前
从 0 到 1:PG WAL → Debezium → Kafka → Spring Boot → Redis
spring boot·redis·kafka
无籽西瓜a2 天前
【西瓜带你学Kafka | 第六期】Kafka 生产确认、消费 API 与分区分配策略(文含图解)
java·分布式·后端·kafka·消息队列·mq
无籽西瓜a2 天前
【西瓜带你学Kafka | 第七期】Kafka 日志存储体系:保留清理、消息格式与分段刷新策略(文含图解)
java·分布式·后端·kafka·消息队列·mq
冷小鱼3 天前
消息队列(MQ)技术全景科普:从选型到AI+未来
人工智能·kafka·rabbitmq·rocketmq·mq·pulsar
运维老司机3 天前
Kafka 单节点部署(Docker Compose + 数据持久化)
分布式·docker·kafka
JAVA面经实录9173 天前
如何选择适合项目的「限流 / 熔断 / 降级」方案
java·spring·kafka·sentinel·guava
ezreal_pan4 天前
Kafka Docker 部署持久化避坑指南:解决重启后 Cluster ID 不匹配问题
分布式·docker·zookeeper·容器·kafka·devops
小张小张爱学习4 天前
Kafka面试题
分布式·kafka