【Kafka笔记】(二)核心架构与专属名词解释

一、 五大核心组件

1、Broker(服务节点)

Kafka 的服务节点,一个 Kafka 集群由多个 Broker 组成。

大白话:一台 Kafka 服务器就是一个 Broker。

2、Topic(主题)

数据的分类通道,相当于数据文件夹/数据表。

  • 不同业务数据放不同 Topic

  • 例如:vehicle_data(车联网数据)、order_log(订单数据)

核心:Flink 消费数据,本质就是消费某个 Topic 的数据。

3、Partition(分区)------ 重中之重

Topic 是逻辑概念,分区是物理存储单元。

  • 一个 Topic 可以分为多个分区

  • 数据均匀分散在不同分区存储

  • 分区数决定 Kafka 最大并发消费能力

生产铁律:Flink 并行度 ≤ Kafka 分区数,否则消费能力无法拉满。

4、Replica(副本)

分区的备份数据,用于高可用、防止数据丢失。

  • Leader 副本:负责读写数据

  • Follower 副本:只同步备份,故障时顶替 Leader

5、Offset(偏移量)------ 最核心

分区内每条消息的唯一序号,相当于数据的"读取游标"。

  • 消费者根据 Offset 记录读到哪了

  • 重启任务不会重头读,从上次 Offset 继续消费

  • Flink Checkpoint 本质就是保存 Offset 状态

二、 生产者 & 消费者 & 消费者组

1、生产者 Producer

负责向 Kafka Topic 发送数据的程序/服务。

示例:车联网设备、业务服务、日志采集程序。

2、消费者 Consumer

负责从 Kafka Topic 读取数据的程序。

示例:Flink 任务、数据同步服务、消息推送服务。

3、消费者组 Group ID(企业核心)

多个消费者归为一个组,组内核心规则:

  1. 同一个组内,一条数据只会被消费一次(保证不重复消费)

  2. 不同组之间互不影响,可以重复消费同一份数据

场景举例:

  • Flink 实时计算用一个组

  • 日志备份消费用另一个组

  • 两份任务独立消费,互不干扰

三、数据存储与消费机制

1、数据存储规则

  • Kafka 数据持久化落盘,不是读完就丢

  • 默认保留一段时间(通常 7天),过期自动清理

  • 数据有序:同一分区内数据有序,跨分区无序

  • earliest:从 Topic 最开始第一条数据从头消费(测试用)

  • latest:从当前最新数据开始消费(生产默认)

3、Offset 提交机制(生产重点)

  • 自动提交:简单但容易丢数据、重复数据(生产禁用)

  • 手动提交:消费成功再提交,Flink Checkpoint 就是手动精准提交

生产标准:关闭 Kafka 自动提交,依赖 Flink 精准 Offset 管理

相关推荐
Ghost Face...1 小时前
PCI总线配置核心实现与架构解析
linux·运维·架构
清平乐的技术专栏1 小时前
【Kafka笔记】(三)常用命令整理
笔记·分布式·kafka
这是谁的博客?1 小时前
[模型解析] DeepSeek: 技术创新与架构解析
ai·架构·大模型·moe·开源模型·deepseek·国产ai
Hua-Jay1 小时前
OpenCV联合C++/Qt 学习笔记(二十四)----差值法检测移动物体、稠密光流法跟踪移动物体及稀疏光流法跟踪移动物体
c++·笔记·qt·opencv·学习·计算机视觉
清平乐的技术专栏1 小时前
【FlinkSQL笔记】(一)什么是Flink SQL
笔记·sql·flink
ting94520001 小时前
Codex 适配国产信创环境完整部署指南(深度技术篇)
人工智能·架构
半夜修仙1 小时前
Redis中Set数据类型的常见命令
java·数据库·redis·笔记·学习
这是谁的博客?1 小时前
[模型解析] Gemini: 多模态技术架构深度解析
ai·google·架构·大模型·多模态·视频生成·gemini
持梦远方1 小时前
Nginx 静态资源挂载与前端部署实战笔记
linux·前端·笔记·nginx