Kafka 工作流程解析：从 Broker 工作原理、节点的服役、退役、副本的生成到数据存储与读写优化

在大数据处理领域，Kafka 作为一款高性能的分布式消息队列系统，扮演着至关重要的角色。它能够高效地处理大规模的实时数据，为众多大数据应用提供了可靠的数据传输和存储基础。本文将深入探讨 Kafka 的核心组件 ------Kafka Broker，包括其工作流程、副本机制、文件存储以及高效读写数据的原理，并分享一些生产环境中的实用经验。

一、Kafka Broker 工作流程

（一）Zookeeper 存储的 Kafka 信息

Kafka 与 Zookeeper 紧密协作，Zookeeper 存储了许多关键的 Kafka 信息。启动 Zookeeper 客户端后，通过ls /kafka命令可以查看相关信息。其中，consumers节点在老版本（0.9 版本之前）存放消费者的偏移量，而在新版本中，偏移量直接存储在集群中。我们还可以借助工具如 "漂亮的 zoo" 通过图形化界面更直观地查看 Zookeeper 中的信息。

通过网盘分享的文件：prettyZoo-win.msi

（二）Kafka Broker 总体工作流程

注册与选举

每一个 Broker 上线时，会在 Zookeeper 中进行注册。每个 Broker 中都有一个 Controller，它们会争先抢占 Zookeeper 中controller节点的注册权，率先抢到的 Broker 中的 Controller 将在选举等事务中拥有决策权。

选举规则以在 ISR（与 Leader 保持同步的 Follower 集合）中存活为前提，按照 AR（分区中的所有副本集合）中排在前面的优先。例如，对于ar[1,0,2]，isr[1,0,2]，Leader 会按照1，0，2的顺序进行轮询选举。选举出来的新节点会注册到 Zookeeper 中，并将信息记录下来，其他 Controller 则同步 Zookeeper 中的信息，假定broker中的leader挂掉了，会进行重新的选举。

数据处理

客户端发送消息给 Leader，Leader 负责记录数据并落盘形成 Log。Log 底层采用 Segment 机制，每一个 Segment 大小为 1G，为了实现数据的快速查找，在 1G 内的数据又分成了log和index两个文件。

二、生产经验 ------ 节点服役和退役

（一）服役新节点

新节点准备

（1）关闭 bigdata03，进行一个快照，并右键执行克隆操作。

（2）开启 bigdata04，并修改 IP 地址。

bash 复制代码

vi /etc/sysconfig/network-scripts/ifcfg-ens33

修改完记得重启网卡：
systemctl restart network

（3）在 bigdata04 上，修改主机名称为 bigdata04。

bash 复制代码

hostname bigdata04    # 临时修改