Kafka topic 中的 partition 数据倾斜问题

在 Kafka 中，如果一个 Topic 有多个 Partition ，但这些 Partition 中的消息数量或流量分布不均衡，就会出现 数据倾斜（Data Skew） 的问题。

✅ 什么是数据倾斜？

数据倾斜指的是：

生产者分区策略问题 ：
- 默认使用 key hash 分区器，如果 key 分布不均，hash 后也会不均；
- 或者显式指定了某些 Partition，使得只有少数 Partition 被使用。
没有设置 key ：
- Kafka 会使用轮询（Round-Robin）策略分发；
- 如果某些 Producer 实现有问题或批次不均，也可能造成不均衡。
动态 topic 扩容不合理 ：
- 增加 Partition 后老的消息还在旧的几个 Partition 中积压。

Kafka 的 重平衡（Rebalance）机制，是**针对消费组（Consumer Group）**的，不是针对生产端的 Partition 数据分布。

当满足以下条件时，Kafka 的 Consumer Group 会触发重平衡：

⚠️ 重平衡只是重新分配 Partition 给消费者，不会改变 Partition 中的数据分布。

Kafka 本身并不知道"数据是否分布均匀"或"某个 Partition 太热"------它只是把数据按照 Producer 的分区逻辑写入特定 Partition。

即使某个 Partition 压力特别大，Kafka 也不会主动调整数据写入的 Partition，也不会因为数据倾斜自动调整 Consumer 分配（除非有 Consumer 崩溃等情况）。

Kafka 不会自动解决，你需要：