kafka学习要点

不光头强2026-02-01 12:34

一、核心基础概念

核心角色：Producer（生产者，发消息）、Consumer（消费者，读消息）、Broker（集群节点，存消息 / 处理请求）
消息载体：Topic（消息逻辑分类），下分多个 Partition（物理存储单元，FIFO 有序，是并行性核心）
高可用保障：Partition 的 Replica（副本），分 Leader（处理读写）和 Follower（同步备份），ISR（同步副本集）内副本可参与 Leader 选举
消费核心：Consumer Group（消费者组），组内消费者均分 Topic 分区（避免重复消费），不同组可独立消费（实现广播）
位置标识：Offset（分区内消息唯一偏移量），消费者通过 Offset 标记消费位置，支持断点续传

二、核心设计（高吞吐 / 高可用关键）

架构：无主从集群，Kafka≥2.8 用 KRaft 管理元数据（替代 ZooKeeper）
高吞吐：磁盘顺序写 + 零拷贝 + 批量收发 + 分区并行处理
高可用：副本同步 + ISR 机制 + 故障自动 Leader 选举
持久化：消息落地磁盘，支持按时间 / 大小配置保留策略，过期自动清理

三、核心流程

1. 生产者发消息

指定 Topic→通过分区器（按 key 哈希 / 无 key 轮询）确定 Partition→发送到该 Partition 的 Leader→Leader 同步至 ISR 所有 Follower→收到 ISR 全部 ACK 后，向生产者返回成功（ACK 级别可配置）

2. 消费者消费消息

消费者组订阅 Topic→完成分区分配→拉取（Pull）对应 Partition 的消息（指定 Offset）→处理消息→提交 Offset（自动 / 手动，标记消费位置）

四、高频核心配置

1. 生产者

acks：确认级别（0 = 不等待确认 / 1=Leader 确认 /-1=ISR 全确认，生产推荐 - 1）
batch.size/linger.ms：批量发送阈值 / 等待时间，平衡吞吐与延迟
retries：重试次数（生产推荐 3-5，解决网络抖动）

2. 消费者

group.id：消费者组标识（必配，同组均分分区）
auto.offset.reset：Offset 无效时策略（earliest = 从开头消费 /latest = 从最新消费）
enable.auto.commit：是否自动提交 Offset（生产推荐 false，手动提交避免消息丢失）

3. Topic

partitions：分区数（可增不可减，决定并行度，建议≥消费者组最大消费者数）
replication.factor：副本数（生产≥2，推荐 3，保证高可用）

五、生产核心问题 & 避坑

消息丢失：生产者设 acks=-1 + 开启重试，消费者用手动提交 Offset
重复消费 ：因 Offset 提交失败 / 重平衡导致，消费逻辑需实现幂等性
分区重平衡（Rebalance）：消费者上下线触发，会短暂停消费，尽量保持消费者数量稳定
幂等 / 事务：生产者开启幂等性避免重复发，跨 Topic / 分区需用 Kafka 事务

上一篇：ACRN Hypervisor 简介

下一篇：Oracle 19c入门学习教程，从入门到精通，Oracle 的闪回技术 — 语法知识点与使用方法详解(19）

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？092026 年 AI 大模型 & AI 编程工具实战全总结 10微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新