【Kafka笔记】(二)核心架构与专属名词解释

一、 五大核心组件

1、Broker(服务节点)

Kafka 的服务节点,一个 Kafka 集群由多个 Broker 组成。

大白话:一台 Kafka 服务器就是一个 Broker。

2、Topic(主题)

数据的分类通道,相当于数据文件夹/数据表。

  • 不同业务数据放不同 Topic

  • 例如:vehicle_data(车联网数据)、order_log(订单数据)

核心:Flink 消费数据,本质就是消费某个 Topic 的数据。

3、Partition(分区)------ 重中之重

Topic 是逻辑概念,分区是物理存储单元。

  • 一个 Topic 可以分为多个分区

  • 数据均匀分散在不同分区存储

  • 分区数决定 Kafka 最大并发消费能力

生产铁律:Flink 并行度 ≤ Kafka 分区数,否则消费能力无法拉满。

4、Replica(副本)

分区的备份数据,用于高可用、防止数据丢失。

  • Leader 副本:负责读写数据

  • Follower 副本:只同步备份,故障时顶替 Leader

5、Offset(偏移量)------ 最核心

分区内每条消息的唯一序号,相当于数据的"读取游标"。

  • 消费者根据 Offset 记录读到哪了

  • 重启任务不会重头读,从上次 Offset 继续消费

  • Flink Checkpoint 本质就是保存 Offset 状态

二、 生产者 & 消费者 & 消费者组

1、生产者 Producer

负责向 Kafka Topic 发送数据的程序/服务。

示例:车联网设备、业务服务、日志采集程序。

2、消费者 Consumer

负责从 Kafka Topic 读取数据的程序。

示例:Flink 任务、数据同步服务、消息推送服务。

3、消费者组 Group ID(企业核心)

多个消费者归为一个组,组内核心规则:

  1. 同一个组内,一条数据只会被消费一次(保证不重复消费)

  2. 不同组之间互不影响,可以重复消费同一份数据

场景举例:

  • Flink 实时计算用一个组

  • 日志备份消费用另一个组

  • 两份任务独立消费,互不干扰

三、数据存储与消费机制

1、数据存储规则

  • Kafka 数据持久化落盘,不是读完就丢

  • 默认保留一段时间(通常 7天),过期自动清理

  • 数据有序:同一分区内数据有序,跨分区无序

  • earliest:从 Topic 最开始第一条数据从头消费(测试用)

  • latest:从当前最新数据开始消费(生产默认)

3、Offset 提交机制(生产重点)

  • 自动提交:简单但容易丢数据、重复数据(生产禁用)

  • 手动提交:消费成功再提交,Flink Checkpoint 就是手动精准提交

生产标准:关闭 Kafka 自动提交,依赖 Flink 精准 Offset 管理

相关推荐
SamDeepThinking20 分钟前
我们当年是如何真实落地BFF的?
java·后端·架构
彼岸星光ぐ>1 小时前
Windows系统下Kafka KRaft模式配置与启动教程
kafka
宜昌未来智慧谷1 小时前
WWDC 2026开发者视角解读:Siri独立App的技术架构与第三方AI模型接入机制
人工智能·架构·apple·wwdc·gemini
协享科技1 小时前
Spring Boot 与 Go 双服务架构实践:从单体拆分到通信设计
java·人工智能·spring boot·后端·架构·golang·ai编程
这个DBA有点耶2 小时前
索引优化深潜(下):索引合并、ICP 与索引设计的实战法则
数据库·mysql·架构
行者-全栈开发2 小时前
深度解析 WWDC 2026:苹果 AI 全栈技术架构与落地实现路径
人工智能·架构·wwdc
我是一颗柠檬2 小时前
【Java项目技术亮点】分库分表+数据路由策略:单表5000万后的架构升级方案
java·开发语言·分布式·架构
伊布拉西莫3 小时前
【流畅的Python】第20章:并发执行器 — 学习笔记
笔记·python·学习
小短腿的代码世界3 小时前
QtitanRibbon 深度解析:工业级Ribbon界面框架的架构设计与自定义扩展
qt·3d·架构
老码观察4 小时前
事件驱动架构从概念到落地——让系统像神经反射一样响应变化
架构