Kafka的高水位、低水位是什么概念?

Kafka 的 高水位(High Watermark, HW)低水位(Low Watermark, LW) 是和数据存储、消费进度、日志清理等密切相关的重要概念。我们用一个 "蓄水池" 的比喻来形象地解释它们的作用。


1. Kafka 里的数据像一个蓄水池

Kafka 的数据存储在 日志(log segment) 里,每个分区(partition)就像一个不断增长的日志文件,数据会随着生产者(producer)的发送不断增加,消费者(consumer)从中读取数据。你可以把它想象成一个 不断注水的蓄水池


2. 高水位(HW):消费安全线

高水位(HW) 就像是蓄水池里的 "最低可见水位" ,只有水面之下的水(数据)才是消费者能喝(消费)到的

  • Kafka 是分布式的,每个分区的消息可能被多个副本(replica)存储在不同的机器上。
  • 只有当 所有 ISR(In-Sync Replicas,即同步副本)都确认收到了某个消息,这个消息才被认为是"稳定的"并可以被消费者消费。
  • 高水位(HW)指的就是最早的 ISR 共同确认的那条消息的偏移量(offset),消费者只能消费到这个位置的数据,再往后的数据还不能保证稳定,不能消费。

类比:

  • 你可以想象蓄水池里有一根透明的管子,管子以下的水可以喝(已经被多个副本确认)。
  • 但管子上面的水(新写入但未完全确认的消息)还在"沉淀"过程中,可能会被回滚(删除)。

作用:

  • 保证数据一致性,确保所有消费者只能消费已经被多个副本确认的数据,避免数据丢失。

3. 低水位(LW):清理水池底部的陈旧数据

低水位(LW) 就是 "蓄水池的排水口" ,用来删除过旧的数据,防止池子被塞满

Kafka 会根据 日志清理策略(Log Retention Policy) 来删除旧数据,比如:

  • 按时间删除(log.retention.hours):只保留最近 X 小时的数据。
  • 按大小删除(log.retention.bytes):当日志文件超过一定大小后,删除最早的数据。

低水位(LW)指的就是最早还能被 Kafka 保留的偏移量(offset),更早的数据都会被清理掉,防止日志无限增长。

类比:

  • 如果池子太满,底部的水就要排走,以腾出空间给新的水(数据)。
  • 低水位(LW)以下的数据(offset)会被 Kafka 自动清理,消费者也无法再读取这些数据。

作用:

  • 避免日志文件无限增长,节省存储空间
  • 提高 Kafka 性能,防止查询过大数据时变慢。

4. 高水位和低水位的关系

  • 高水位(HW)不断上升,确保数据可以安全消费
  • 低水位(LW)也在上升,确保老数据及时清理
  • 高水位 - 低水位之间的数据就是 Kafka 当前可消费的数据,消费者只能消费这个范围的数据。

5. 总结

概念 作用 类比
高水位(HW) 保障消费者只能消费到安全的数据 透明管子以下的水,可安全饮用
低水位(LW) 触发日志清理,避免存储爆炸 水池排水口,定期排掉老水

6. 延伸思考

  • 如果 ISR 副本少了(比如机器故障),高水位就不会提升,导致消费者无法消费新数据。
  • 如果低水位设得太低,可能会让消费者还没消费就被删数据,导致数据丢失。
  • Kafka 通过合理调整 log.retention.* 和副本同步策略,来平衡存储和消费的可靠性。

这样理解的话,Kafka 高低水位的原理是不是就清晰很多了?

相关推荐
SPC的存折2 分钟前
分布式(加一键部署脚本)LNMP-Redis-Discuz5.0部署指南-小白详细版
linux·运维·服务器·数据库·redis·分布式·缓存
Ulyanov6 分钟前
打造现代化雷达电子对抗仿真界面 第三篇:综合电子战指挥控制台——多视图协同与插件化架构
python·架构·系统仿真·雷达电子战
前端不太难6 分钟前
State 驱动鸿蒙游戏架构详解
游戏·架构·harmonyos
进击的小头9 分钟前
第8篇:嵌入式芯片内存架构详解:SRAM_Flash_Cache与外部存储的层级设计
单片机·嵌入式硬件·架构
七夜zippoe10 分钟前
DolphinDB集群部署:从单机到分布式
分布式·wpf·单机·dolphindb·分集群
许彰午11 分钟前
# 政务表单动态建表?运行时DDL引擎,前端拖完字段后端直接建
java·前端·后端·架构·政务
不懂的浪漫11 小时前
mqtt-plus 架构解析(六):多 Broker 管理,如何让一个应用同时连接多个 MQTT 服务
spring boot·分布式·物联网·mqtt·架构
不懂的浪漫11 小时前
mqtt-plus 架构解析(十):从内部项目到开源框架,mqtt-plus 的抽取过程与决策
spring boot·mqtt·架构·开源
CoovallyAIHub14 小时前
视频理解新范式:Agent不再被动看视频,LensWalk让它自己决定看哪里
算法·架构·github
CoovallyAIHub14 小时前
斯坦福丨AirVLA:将地面机械臂模型迁移至无人机实现空中抓取,成功率从23%提升至50%
算法·架构·github