Kafka Consumer 消费流程详解

消费模式

pull：

Consumer主动从Broker中拉取消息
实时性低
拉去时间间隔由用户指定，若设置不当：间隔太短，空请求比例会增加；间隔太长，消息的实时性太差

push：

Broker收到数据后会主动推送给Consumer
实时性高

Kafka采用Pull模式来消费消息，因为push模式由Broker决定发送速率，很难适应所有消费者的消费速率。

如果Kafka中没有数据，消费者有可能陷入循环，一直返回空数据。

工作流程

拉取消息（Poll）

消费者通过 拉取模式（pull） 主动从指定分区拉取消息，拉取时需指定从哪个 offset（消息偏移量） 开始消费。一条消息只能被一个消费者消费，属于是集群消费。

注意：

每个分区的数据只能由一个消费者组里的消费者消费
一个消费者可以消费多个分区
消费者组会统一维护每个分区的消费进度（Offset，即已消费到的消息位置），并将其保存在系统主题（__consumer_offset）里

消费者组

Consumer Group（CG）：消费者组，由多个consumer组成。形成一个消费者组的条件，是所有消费者的groupid相同。

作用：

避免消息的重复消费，一个分区只会被一个消费者组里的一个消费者消费。如果由多个消费者组，这个消息就会被重复消费
实现负载均衡。消费者组通过分区分配机制，将主题的多个分区分配给组内的不同消费者

注意：

消费者组内每个消费者负责消费不同分区的数据，一个分区只能由一个组内消费者消费。
消费者组之间互不影响。所有的消费者都属于某个消费者组，即消费者组是逻辑上的一个订阅者。
如果向消费组中添加更多的消费者，超过主题分区数量，则有一部分消费者就会闲置，不会接收任何消息。

初始化

1. Coordinator 节点选择

消费者组的 Coordinator 节点由 group.id 的哈希值对 __consumer_offsets 主题的分区数（默认 50）取模确定。例如，若 group.id 哈希值为1，1%50=1，则选择 __consumer_offsets 主题 1 号分区所在的 Broker 上的Coordinator作为该组的协调者。

2. 消费者组初始化（JoinGroup 流程）

发送 JoinGroup 请求 ：组内每个消费者向 Coordinator 发送 JoinGroup 请求，申请加入消费者组。
选举 Leader 消费者 ：Coordinator 从组内消费者中选出一个作为 Leader 消费者。
上报消费主题信息：所有消费者将自己要消费的 Topic 信息发送给 Leader 消费者。
制定消费方案 ：Leader 消费者根据组内消费者数量和 Topic 分区情况，制定分区分配方案（如 Range、RoundRobin 策略）。
提交消费方案：Leader 消费者将制定的消费方案发送给 Coordinator。
下发消费方案：Coordinator 将消费方案下发给组内所有消费者，消费者根据方案确定自己负责的分区。

3. 心跳与重平衡触发

每个消费者会与 Coordinator 保持心跳（默认 3 秒）。若消费者超时（session.timeout.ms 默认为 45 秒）或处理消息时间过长（max.poll.interval.ms 默认为 5 分钟），Coordinator 会将其移除并触发重平衡，重新分配分区。

4. Offset 提交与存储

消费者提交的 Offset 会发送到对应 Coordinator 管理的 __consumer_offsets 分区中持久化，确保消费进度的可靠性。

消费流程

1. 发起拉取请求

消费者通过 ConsumerNetworkClient 向 Kafka 集群中对应分区的 Leader Broker（如 TopicA 的 Partition0、1、2 分别对应 broker0、broker1、broker2 的 Leader）发送拉取请求（Fetch Request）。

2. 拉取参数控制

拉取过程由多个参数控制：

Fetch.min.bytes：每批次最小抓取大小（默认 1 字节），若数据量不足则等待。
fetch.max.wait.ms：一批数据未达最小值时的超时时间（默认 500ms），超时后即使数据不足也返回。
Fetch.max.bytes：每批次最大抓取大小（默认 50M），防止单次拉取数据量过大。
Max.poll.records：一次拉取返回消息的最大条数（默认 500 条）。

3. 接收并缓存拉取结果

Broker 调用回调函数处理拉取请求后，将消息返回给消费者，消费者将结果存入 completedFetches 队列（缓存已完成的拉取任务）。

4. 消息处理流程

消费者组从队列中获取消息后，依次进行：

反序列化（parseRecord）：将字节数据解析为业务可识别的消息格式。
拦截器（Interceptors）：可插入自定义逻辑（如日志记录、数据过滤）。
业务处理：执行具体的业务逻辑（如存储、计算、转发等）。