【Kafka笔记】(二)核心架构与专属名词解释

一、 五大核心组件

1、Broker(服务节点)

Kafka 的服务节点,一个 Kafka 集群由多个 Broker 组成。

大白话:一台 Kafka 服务器就是一个 Broker。

2、Topic(主题)

数据的分类通道,相当于数据文件夹/数据表。

  • 不同业务数据放不同 Topic

  • 例如:vehicle_data(车联网数据)、order_log(订单数据)

核心:Flink 消费数据,本质就是消费某个 Topic 的数据。

3、Partition(分区)------ 重中之重

Topic 是逻辑概念,分区是物理存储单元。

  • 一个 Topic 可以分为多个分区

  • 数据均匀分散在不同分区存储

  • 分区数决定 Kafka 最大并发消费能力

生产铁律:Flink 并行度 ≤ Kafka 分区数,否则消费能力无法拉满。

4、Replica(副本)

分区的备份数据,用于高可用、防止数据丢失。

  • Leader 副本:负责读写数据

  • Follower 副本:只同步备份,故障时顶替 Leader

5、Offset(偏移量)------ 最核心

分区内每条消息的唯一序号,相当于数据的"读取游标"。

  • 消费者根据 Offset 记录读到哪了

  • 重启任务不会重头读,从上次 Offset 继续消费

  • Flink Checkpoint 本质就是保存 Offset 状态

二、 生产者 & 消费者 & 消费者组

1、生产者 Producer

负责向 Kafka Topic 发送数据的程序/服务。

示例:车联网设备、业务服务、日志采集程序。

2、消费者 Consumer

负责从 Kafka Topic 读取数据的程序。

示例:Flink 任务、数据同步服务、消息推送服务。

3、消费者组 Group ID(企业核心)

多个消费者归为一个组,组内核心规则:

  1. 同一个组内,一条数据只会被消费一次(保证不重复消费)

  2. 不同组之间互不影响,可以重复消费同一份数据

场景举例:

  • Flink 实时计算用一个组

  • 日志备份消费用另一个组

  • 两份任务独立消费,互不干扰

三、数据存储与消费机制

1、数据存储规则

  • Kafka 数据持久化落盘,不是读完就丢

  • 默认保留一段时间(通常 7天),过期自动清理

  • 数据有序:同一分区内数据有序,跨分区无序

  • earliest:从 Topic 最开始第一条数据从头消费(测试用)

  • latest:从当前最新数据开始消费(生产默认)

3、Offset 提交机制(生产重点)

  • 自动提交:简单但容易丢数据、重复数据(生产禁用)

  • 手动提交:消费成功再提交,Flink Checkpoint 就是手动精准提交

生产标准:关闭 Kafka 自动提交,依赖 Flink 精准 Offset 管理

相关推荐
小白鼠幻想家11 小时前
Agent 上下文爆炸:200 万退款事故复盘
架构
杉氧15 小时前
副作用 (Side Effects) 全攻略:如何像大师一样掌控 Composable 的生命周期?
android·架构·android jetpack
徐小夕16 小时前
jitword 协同文档3.2发布:打造浏览器中最强word编辑器
前端·架构·github
玉宇夕落18 小时前
Harness Engineering 核心四层一:记忆模块的简单学习
架构
BothSavage18 小时前
OpenHarness源码研究-3-codex配置到输出对话
后端·架构
杉氧1 天前
深入理解 Compose 重组机制:快照系统如何驱动 UI 精准刷新?
android·架构·android jetpack
杉氧1 天前
深度解析:Jetpack Compose 核心架构与底层原理 —— 十年安卓老兵的“破茧重生”
android·架构·android jetpack
Lion091 天前
ReAct 循环:Agent 的思考引擎 — Think → Act → Observe
架构
得物技术2 天前
从狂野代码到按目标生产:得物推荐 AI Harness 的工程化实践|AICon 演讲整理
人工智能·算法·架构
自珍JAVA2 天前
Superpowers AI编码秩序
架构