kafka学习要点

一、核心基础概念

  1. 核心角色:Producer(生产者,发消息)、Consumer(消费者,读消息)、Broker(集群节点,存消息 / 处理请求)
  2. 消息载体:Topic(消息逻辑分类),下分多个 Partition(物理存储单元,FIFO 有序,是并行性核心)
  3. 高可用保障:Partition 的 Replica(副本),分 Leader(处理读写)和 Follower(同步备份),ISR(同步副本集)内副本可参与 Leader 选举
  4. 消费核心:Consumer Group(消费者组),组内消费者均分 Topic 分区(避免重复消费),不同组可独立消费(实现广播)
  5. 位置标识:Offset(分区内消息唯一偏移量),消费者通过 Offset 标记消费位置,支持断点续传

二、核心设计(高吞吐 / 高可用关键)

  1. 架构:无主从集群,Kafka≥2.8 用 KRaft 管理元数据(替代 ZooKeeper)
  2. 高吞吐:磁盘顺序写 + 零拷贝 + 批量收发 + 分区并行处理
  3. 高可用:副本同步 + ISR 机制 + 故障自动 Leader 选举
  4. 持久化:消息落地磁盘,支持按时间 / 大小配置保留策略,过期自动清理

三、核心流程

1. 生产者发消息

指定 Topic→通过分区器(按 key 哈希 / 无 key 轮询)确定 Partition→发送到该 Partition 的 Leader→Leader 同步至 ISR 所有 Follower→收到 ISR 全部 ACK 后,向生产者返回成功(ACK 级别可配置)

2. 消费者消费消息

消费者组订阅 Topic→完成分区分配→拉取(Pull)对应 Partition 的消息(指定 Offset)→处理消息→提交 Offset(自动 / 手动,标记消费位置)

四、高频核心配置

1. 生产者
  • acks:确认级别(0 = 不等待确认 / 1=Leader 确认 /-1=ISR 全确认,生产推荐 - 1)
  • batch.size/linger.ms:批量发送阈值 / 等待时间,平衡吞吐与延迟
  • retries:重试次数(生产推荐 3-5,解决网络抖动)
2. 消费者
  • group.id:消费者组标识(必配,同组均分分区)
  • auto.offset.reset:Offset 无效时策略(earliest = 从开头消费 /latest = 从最新消费)
  • enable.auto.commit:是否自动提交 Offset(生产推荐 false,手动提交避免消息丢失)
3. Topic
  • partitions:分区数(可增不可减,决定并行度,建议≥消费者组最大消费者数)
  • replication.factor:副本数(生产≥2,推荐 3,保证高可用)

五、生产核心问题 & 避坑

  1. 消息丢失:生产者设 acks=-1 + 开启重试,消费者用手动提交 Offset
  2. 重复消费 :因 Offset 提交失败 / 重平衡导致,消费逻辑需实现幂等性
  3. 分区重平衡(Rebalance):消费者上下线触发,会短暂停消费,尽量保持消费者数量稳定
  4. 幂等 / 事务:生产者开启幂等性避免重复发,跨 Topic / 分区需用 Kafka 事务
相关推荐
载数而行52013 小时前
QT的五类布局
c++·qt·学习
载数而行52013 小时前
QT的QString类
c++·qt·学习
zl_dfq14 小时前
Python学习2 之 【数据类型、运算及相关函数、math库】
学习
无心水14 小时前
【任务调度:框架】11、分布式任务调度进阶:高可用、幂等性、性能优化三板斧
人工智能·分布式·后端·性能优化·架构·2025博客之星·分布式调度框架
2301_7811435616 小时前
C语言学习笔记
笔记·学习
Alphapeople17 小时前
Isaac Sim学习
学习
蒸蒸yyyyzwd17 小时前
高并发40问学习笔记
笔记·学习
天若有情67319 小时前
循环条件隐藏陷阱:我发现了「同循环双条件竞态问题」
c++·学习·算法·编程范式·while循环··竞态
Amazing_Cacao19 小时前
褪去故事滤镜:重建精品可可的“结构语言”
笔记·学习
网络工程小王20 小时前
【大数据技术详解】——Sqoop技术(学习笔记)
大数据·学习·sqoop