Kafka面试题 - 技术栈

实现方式：

Kafka 使用 Java NIO 的 FileChannel.transferTo() 方法，底层调用 Linux 的 sendfile 系统调用。

传统流程 vs 零拷贝：

好处：

减少 CPU 拷贝和上下文切换，大幅提升磁盘到网络的数据传输性能，是 Kafka 高吞吐的关键之一。

取值	说明	优缺点	生产建议
`acks=0`	生产者不等确认，直接发下一条	最快，但可能丢数据（如网络抖动）	极少用
`acks=1`	Leader 写入本地日志后确认，不等待 Follower	默认值，折中方案，但仍可能丢数据（Leader 确认后宕机）	日志采集等对丢失不敏感的场景
`acks=all` / `-1`	Leader 等待 ISR 中所有副本写入成功	最可靠，不丢数据，但影响延迟	核心交易场景

ISR（In-Sync Replicas） ：与 Leader 保持同步的副本集合。

同步条件：副本在过去 replica.lag.time.max.ms 内未明显落后。

为什么需要 ISR？

角色	措施
生产者	`acks=all`，等待 ISR 中所有副本写入成功；设置 `retries > 0`；开启 `enable.idempotence=true`（幂等性）
Broker	设置 ISR 最小副本数；`unclean.leader.election.enable=false`（禁止从非 ISR 选举 Leader）
消费者	先处理业务逻辑，再手动提交 Offset（`enable.auto.commit=false`）

开启方式 ：enable.idempotence=true
实现原理 ：
- 每个生产者分配一个 Producer ID（PID）
- 每条消息带序列号，Broker 按分区维护 PID 和序列号
- 发现重复序列号则拒绝写入
作用：避免网络重试导致的消息重复（单分区、单会话内），是实现 Exactly-Once 语义的第一步。

Rebalance：消费者组内重新分配分区的协调机制。

触发时机：

对性能的影响：

优点	缺点
消费者按自身能力拉取，不易被推死	无数据时空轮询（可配置 `fetch.wait.max.ms` 缓解）
支持批量拉取（`max.poll.records`）	需手动处理 Offset 提交，复杂度略高
慢消费者不阻塞其他消费者

避免重复消费：

已发生重复消费如何解决：

同步机制：

Follower 从 Leader 拉取数据并写入日志，主动发送 Fetch 请求。

Follower 落后太多：

作用：

当消费者没有初始 Offset 或当前 Offset 已失效（如数据被删除）时，决定从何处开始消费。