kafka - 技术栈

基础概念

1. Kafka 的核心组件是什么？

Broker（代理）：Kafka 集群中的一台服务器，负责存储消息。
Topic（主题）：消息的逻辑分类，生产者将消息发布到主题，消费者从主题订阅消息。
Partition（分区）：一个 Topic 可以分成多个分区，分区是消息存储的最小单位，也是 Kafka 实现水平扩展和高并发的关键。
Producer（生产者）：负责向 Topic 发布消息。
Consumer（消费者）：负责从 Topic 订阅和消费消息。
Consumer Group（消费者组）：由多个消费者组成，它们共同消费一个或多个 Topic。在同一个消费者组内，每个分区只会被一个消费者消费，保证了消息不会被重复消费。

2. Kafka 和传统消息队列的区别？

传统消息队列（如 RabbitMQ）是基于"队列"模型，通常消息被消费后就会从队列中删除。而 Kafka 是基于**"日志"模型**，消息被以追加的方式写入分区日志，即使被消费也不会立即删除，而是根据配置的保留时间来决定何时删除。

这使得 Kafka 不仅仅是消息队列，更是一个分布式流式平台，支持数据的回溯和持久化存储。

3. 什么是 Consumer Group？

消费者组是一组共享相同 Group ID 的消费者。它们协同工作，共同消费一个 Topic 的所有分区。这种机制实现了负载均衡：每个分区只会被一个消费者组内的成员消费，从而确保了消息只会被处理一次。当消费者组内的消费者数量少于分区数时，某些消费者会负责消费多个分区。当数量多于分区数时，多出的消费者会处于空闲状态。

4. 什么是 Offset？

Offset（偏移量）是消费者在某个分区日志中的位置标记。它是一个从 0 开始的整数，代表了消费者已经消费到该分区的第几条消息。Kafka 会为每个消费者组的每个分区维护一个偏移量。这使得消费者可以精确地追踪自己的消费进度，并且即使宕机，重启后也可以从上次记录的偏移量处继续消费，保证了消费的连续性。

工作原理

1. Kafka 如何保证消息不丢失？

Kafka 通过**副本（Replication）和消息确认机制（acks）**来保证消息的持久性。

副本：每个分区都有一个 Leader 和若干个 Follower 副本。所有生产者和消费者都与 Leader 交互。
acks：生产者在发送消息时可以配置确认级别：
- acks=0：生产者发送后不等待任何确认，吞吐量最高，但最不安全。
- acks=1：生产者等待 Leader 收到消息并写入本地日志后返回确认。
- acks=all：生产者等待 Leader 收到消息，并且所有同步副本（ISR）也都同步完成后才返回确认。这是最强的可靠性保证，但延迟也最高。

2. Kafka 的分区机制是怎样的？

当生产者发送消息时，它需要决定将消息发送到哪个分区。分区策略有三种：

轮询（Round-robin）：如果消息没有指定 key，生产者会以轮询的方式均匀地将消息发送到所有分区，以实现负载均衡。
按 Key 哈希：如果消息指定了 key，生产者会根据这个 key 的哈希值来选择分区。这能确保所有相同 key 的消息都进入同一个分区，从而保证消息的顺序性。
自定义分区：开发者可以实现自己的分区器逻辑。

3. 消费者是如何拉取消息的？

Kafka 采用的是**消费者主动拉取（Pull）**模式。消费者会向 Broker 发送请求，拉取它想要消费的消息。这种模式的好处是消费者可以控制自己的消费速率，不会被生产者或 Broker 压垮，而且可以根据需要一次性拉取多条消息，减少网络开销。

4. Kafka 如何保证消息的顺序性？

Kafka 只能保证单个分区内的消息顺序 。因为每个分区是一个独立的日志文件，消息写入是严格按照顺序的。但 Kafka 不保证跨分区的全局顺序。

要保证全局有序，你可以将 Topic 设置为一个分区，但这会牺牲并发性和吞吐量。如果要保证某个特定类别的消息（比如同一个用户的订单消息）有序，可以通过设置 key 来将这些消息路由到同一个分区。

架构与设计

1. Kafka 的高吞吐量是如何实现的？

顺序写入：Kafka 将消息追加到磁盘上的分区日志文件末尾，利用了磁盘顺序写入的高性能。
批量发送：生产者会将多条消息打包成一个批次（batch）再发送，减少了网络开销。
分区并行：通过多个分区实现并行读写，每个分区可以由不同的消费者独立消费。
零拷贝（Zero-Copy）：在发送数据时，Kafka 直接将数据从磁盘文件传输到网络套接字，避免了数据在内核缓冲区和用户缓冲区之间的多次拷贝，显著提升了 I/O 性能。

2. Kafka 如何实现高可用和容错？

通过**分区副本（Replication）**机制。每个分区都有一个 Leader 副本和多个 Follower 副本。

Leader：处理所有的读写请求。
Follower：被动地从 Leader 复制数据，保持同步。
如果 Leader 副本挂掉，Zookeeper（或新版本中的 KRaft）会从 ISR（In-Sync Replicas）中选举一个新的 Leader，从而实现故障转移，保证服务的高可用。

3. Zookeeper 在 Kafka 中扮演什么角色？

Zookeeper 作为一个中心协调服务，主要负责以下几件事：

集群元数据管理：存储 Kafka 集群的 Broker、Topic、分区、副本等信息。
控制器选举：在多个 Broker 中选举出 Controller，负责管理分区 Leader 的选举。
消费者组管理：记录每个消费者组的消费偏移量（新版本已默认保存在 Kafka 内部）。

4. Kafka 的日志文件存储机制？

一个分区对应一个文件夹，其中包含了多个日志文件（.log）。每个日志文件都有一个索引文件（.index）和时间索引文件（.timeindex）。Kafka 会根据配置的保留策略（按时间或按大小）自动清理旧的日志段。由于写入是追加式的，这使得读写都非常快。

应用与场景

1. 什么情况下会选择使用 Kafka？

实时数据管道：作为数据流的中心，连接各种系统，例如将用户点击流数据从前端发送到后端分析系统。
日志收集与聚合：统一收集服务器日志，进行实时或离线分析。
事件溯源（Event Sourcing）：将所有业务操作都作为不可变事件记录下来，作为系统状态的唯一来源。
流式处理：结合 Kafka Streams 或 Flink 等流处理框架，对数据流进行实时计算和处理。

2. 如何处理消息重复消费的问题？

Kafka 只保证至少一次（At-least-once）的消费语义，这意味着在某些情况下消息可能会被重复消费。要解决这个问题，通常需要在消费者端 做幂等性处理。

在消息中包含一个全局唯一的 ID（如 UUID 或业务 ID）。
消费者在处理消息前，先查询一个状态存储（如数据库或 Redis），检查该 ID 是否已被处理过。
如果已处理，则直接丢弃；否则，处理并记录该 ID。

深入与扩展

1. 什么是 ISR (In-Sync Replicas)？

ISR 是一个分区副本的同步集合，它由 Leader 和所有已经同步到最新进度的 Follower 组成。只有 ISR 中的副本才有资格被选为新的 Leader。当 ISR 中的副本挂掉或长时间未同步，Leader 会将其从 ISR 中移除，以保证集群的健康。

2. Kafka 零拷贝（Zero-Copy）技术是什么？

零拷贝是一种数据传输技术，它允许数据直接从磁盘文件传输到网络套接字，而不经过应用程序的缓冲区。传统的数据传输需要四次拷贝和四次上下文切换，而零拷贝技术将这个过程减少到两次拷贝和两次上下文切换，大大减少了 CPU 负担，提高了数据传输的效率和吞吐量。