Kafka -基本概念

KK的任意门2024-04-15 11:30

认识Kafka

kafka是一个多分区、多副本、基于zookeeper协调的分布式消息系统。

扮演角色

消息系统
存储系统：把消息持久化到磁盘，相比于其他基于内存存储的系统而言，有效降低了数据丢失的风险。
流式处理平台

基本概念

kafka的体系结构：

Producer : 负责创建消息，然后将其投递到Kafka中
Consumer : 连接Kafka上并接收消息，进行相应的业务逻辑处理。
Broker : 服务代理节点，负责将收到的消息存储到磁盘中。一个Broker可以看做一个独立的Kafka服务节点。一个或者多个Broker组成了一个Kafka集群。
ZooKeeper: 用来负责Kafka集群元数据管理、控制器管理等操作。
主题： Kafka中的消息以主题作为单位进行归类，生产者将消息发送到特定的主题，消费者负责订阅主题进行消费。

特点

多分区

主题是一个逻辑上 的概念，可以细分为多个分区，一个分区只属于单个主题 。

同一主题下的不同分区包含的消息是不同的，分区在存储层面可以看成一个可追加写的日志文件 。

消息在被追加到日志文件都会带上一个offset标记，因此同一分区上的消息是有序的，但不同分区的消息不能保证顺序 。
分区可以分布在不同的Broker上，因此一个主题可以横跨多个Broker，以此来提供比单个broker更强大的能力。（如果是单个Broker，容易受到所在机器I/O的性能限制）

多副本

概念

Kafka为分区引入了多副本机制，同一分区的不同副本中保存的相同的消息 。（某一时刻可能消息不完全一致）

副本之间是"一主多从"的关系，其中leader副本负责处理读写请求，follower副本只负责与leader副本的消息同步。

好处：多副本机制实现了故障的自动转移，当Kafka集群中某个broker失效时候，仍保证服务可用。

副本集合分类

AR（Assigned Replicas）: 所有的副本

ISR（In-Sync Replicas）: 与leader副本保持一定程度同步的副本，包括leader在内

OSR（Out-of-Sync Replicas）: 与leader副本同步之后过多的副本

AR = ISR + OSR

上面说的一定程度是指可忍受的范围内，该范围参数可以人工调节

leader副本负责维护和跟踪ISR集合中所有follower副本的滞后顺序，当follower副本落后太多或者失效时候，leader副本将其从ISR集合中剔除。

如果OSR集合中有follower副本追上了leader副本，则leader副本会把它从OSR集合中转移到ISR集合中。

Kafka分区副本的复制机制

HW：high watermark 高水位，标识了一个特定的offset，消费者只能消费HW之前的消息。

LEO：Log end offfset，标识当前日志文件中下一条待写入消息的offset

ISR集合中每个副本都会维护自身的LEO，ISR集合中最小的LEO即为分区的HW，即消费者只能消费该HW之前的消息。

复制图例：

消息3、4从生产者发出后，会先写入到leader副本
follower副本开始同步leader副本
follower同步较快，HW等于follower1与follower2的最小值，此时消费者只能消费到offset为4之前的消息
所有节点都复制好了，HW重新更新

这种复制方式的好处：

Kafka副本的复制机制，既不是完全的同步复制，又不是单纯的异步复制
若为同步复制，需要等所有的follower都复制完，才认为这条消息是已成功提交的，这种方式会极大影响性能。
若为异步复制，数据只要被leader副本写入就认为成功提交（没等follwer副本复制完全），这时候如果leader副本宕机，则会造成数据丢失。
Kafka这种复制方式均衡了数据可靠性和性能之间的关系。

上一篇：TQ15EG开发板教程：在MPSOC上运行ADRV9371（vivado2018.3）

下一篇：学习JavaEE的日子 Day38 网络编程

热门推荐

01如何新建文件夹？电脑新建文件夹的4种方法 02GitHub 镜像站点 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 06微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 07AI科技热点日报 | 2026年07月01日 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？092026上半年大模型全景技术解读：推理融合、Agent 爆发与多模态统一 102026 年 AI 大模型 & AI 编程工具实战全总结