Kafka 为什么会消息堆积？

Kafka 定期清理 Partition ，但消息堆积（backlog） 依然可能发生，主要是因为 Kafka 的清理机制和消息消费进度是两回事 。我们可以用一个 快递仓库 的类比来解释。

Kafka 定期清理 Partition 主要是为了 删除"太旧的消息" ，而不是为了 确保消费者能及时消费消息。如果生产的速度 > 消费的速度，消息就会在 Kafka 里堆积，导致以下几种情况：

示例：

解决方案：

Kafka 主要有两种日志清理策略：

问题是：

示例：

解决方案：

如果 Consumer 挂掉了，或者在重启过程中，Kafka 不会自动删除它未消费的消息，这些消息会一直在 Kafka 里等着它恢复。
Consumer Group 发生 Rebalance（比如有新 Consumer 加入或离开），可能会导致短时间内 Consumer 不能消费数据，造成短暂的消息堆积。

示例：

解决方案：

示例：

一个 Kafka Broker 只有 1GB/s 的磁盘吞吐量 ，但 Producer 的数据写入速率高达 1.5GB/s，导致 Kafka 本身就写不动，积压在磁盘队列里。

解决方案：

如果 Kafka 允许消息存储很久 （比如 log.retention.hours=168 表示 7 天），但 Consumer 长时间没消费某些 Partition，这些 Partition 里的消息就会堆积。
Kafka 不会主动丢弃未过期的消息，即使它们从未被消费。

示例：

某个 Consumer Group 绑定了 auto.offset.reset=earliest，但 3 天内都没消费，Kafka 依然保留这些消息，导致堆积。

解决方案：

原因	解释	解决方案
消费者太慢	生产 > 消费，导致消息积压	增加 Consumer 数量、优化消费逻辑
清理策略不适用	清理的是"旧消息"，而不是积压消息	适当调整 `log.retention.*` 配置
Consumer 故障或重平衡	Consumer 崩溃或 Rebalance，导致无法消费	增加 Consumer 副本，优化 Rebalance 逻辑
Kafka 磁盘或网络瓶颈	Kafka 本身处理不过来，消息写入太快	增加 Partition/Broker，提高硬件性能
消息 TTL 过长	未消费但未过期的消息长期堆积	降低 `log.retention.hours`，优化 Offset 提交

Kafka 的 清理机制只是"定期倒掉老水" ，但如果 生产的水流太快、消费的水泵太慢，或者仓库太小 ，消息还是会堆积。所以 Kafka 需要合理优化生产、消费、存储策略，才能避免消息积压。

这样解释的话，Kafka 为什么会消息堆积，是不是更清楚了？