kafka学习要点

一、核心基础概念

  1. 核心角色:Producer(生产者,发消息)、Consumer(消费者,读消息)、Broker(集群节点,存消息 / 处理请求)
  2. 消息载体:Topic(消息逻辑分类),下分多个 Partition(物理存储单元,FIFO 有序,是并行性核心)
  3. 高可用保障:Partition 的 Replica(副本),分 Leader(处理读写)和 Follower(同步备份),ISR(同步副本集)内副本可参与 Leader 选举
  4. 消费核心:Consumer Group(消费者组),组内消费者均分 Topic 分区(避免重复消费),不同组可独立消费(实现广播)
  5. 位置标识:Offset(分区内消息唯一偏移量),消费者通过 Offset 标记消费位置,支持断点续传

二、核心设计(高吞吐 / 高可用关键)

  1. 架构:无主从集群,Kafka≥2.8 用 KRaft 管理元数据(替代 ZooKeeper)
  2. 高吞吐:磁盘顺序写 + 零拷贝 + 批量收发 + 分区并行处理
  3. 高可用:副本同步 + ISR 机制 + 故障自动 Leader 选举
  4. 持久化:消息落地磁盘,支持按时间 / 大小配置保留策略,过期自动清理

三、核心流程

1. 生产者发消息

指定 Topic→通过分区器(按 key 哈希 / 无 key 轮询)确定 Partition→发送到该 Partition 的 Leader→Leader 同步至 ISR 所有 Follower→收到 ISR 全部 ACK 后,向生产者返回成功(ACK 级别可配置)

2. 消费者消费消息

消费者组订阅 Topic→完成分区分配→拉取(Pull)对应 Partition 的消息(指定 Offset)→处理消息→提交 Offset(自动 / 手动,标记消费位置)

四、高频核心配置

1. 生产者
  • acks:确认级别(0 = 不等待确认 / 1=Leader 确认 /-1=ISR 全确认,生产推荐 - 1)
  • batch.size/linger.ms:批量发送阈值 / 等待时间,平衡吞吐与延迟
  • retries:重试次数(生产推荐 3-5,解决网络抖动)
2. 消费者
  • group.id:消费者组标识(必配,同组均分分区)
  • auto.offset.reset:Offset 无效时策略(earliest = 从开头消费 /latest = 从最新消费)
  • enable.auto.commit:是否自动提交 Offset(生产推荐 false,手动提交避免消息丢失)
3. Topic
  • partitions:分区数(可增不可减,决定并行度,建议≥消费者组最大消费者数)
  • replication.factor:副本数(生产≥2,推荐 3,保证高可用)

五、生产核心问题 & 避坑

  1. 消息丢失:生产者设 acks=-1 + 开启重试,消费者用手动提交 Offset
  2. 重复消费 :因 Offset 提交失败 / 重平衡导致,消费逻辑需实现幂等性
  3. 分区重平衡(Rebalance):消费者上下线触发,会短暂停消费,尽量保持消费者数量稳定
  4. 幂等 / 事务:生产者开启幂等性避免重复发,跨 Topic / 分区需用 Kafka 事务
相关推荐
学编程的闹钟10 分钟前
E语言子程序调用详解
学习
Coder_Boy_16 分钟前
Java后端核心技术体系全解析(个人总结)
java·开发语言·spring boot·分布式·spring cloud·中间件
郝学胜-神的一滴35 分钟前
Effective Modern C++ 条款40:深入理解 Atomic 与 Volatile 的多线程语义
开发语言·c++·学习·算法·设计模式·架构
追光少年332238 分钟前
React学习:ES6
学习·react.js·es6
宇木灵1 小时前
考研数学-高中数学回顾函数的微分day8(完结)
笔记·学习·考研·数学·函数·导数·微分
今儿敲了吗1 小时前
28| A-B数对
数据结构·c++·笔记·学习·算法
The_Uniform_C@t21 小时前
AWD | ATT&CK实战系列--蓝队防御(一)
网络·学习·网络安全
今儿敲了吗2 小时前
27| 魔法封印
数据结构·c++·笔记·学习·算法
星辰_mya2 小时前
Kafka 的 KRaft 模式
分布式·kafka
2501_918126912 小时前
stm32能做次声波检测器吗?
c语言·stm32·单片机·嵌入式硬件·学习