kafka基本概念

数据分区可以带来高并发,副本可以带来高可用

topic:

卡夫卡中消息存在topic中

主题topic(半结构化):相当于数据库的表(结构化)

一般一个topic存储相同数据类型的数据,也可以存不同数据类型数据

partition

topic又分为多个分区partition,不同分区分布在不同服务器上(分布式,见最后的例子),让kafka有了拓展性(通过调整分区数量和节点数量即可)

分区:线性增长、不可变的提交日志,当消息存在分区中,消息就不可变更

offset

每个分区都有一个偏移量offset:记录分区中每条消息的位置,在每个分区中唯一的、不可重复,递增的,kafka利用offset对消息进行提取,但我们没法对消息内容进行检索和查询

不同分区之间偏移量可以重复


record:

消息(记录record)是以键值对的形式进行存储 key-value:

如果不指定key,key为空,kafka就会以轮询方式写入到不同分区中:(如下)

如果指定key,相同key就会写入到同一个分区:(下面以图形相同代表key相同)


副本

副本replication:高可用,下图因子是3,代表包括主分区(leader)在内一共三个副本

副本就是follower,都是往主分区写入读取 ,然后会有一个isr副本同步集( 如图包括了三个节点101 102 103),代表这三个副本正在同步,如果某一个副本落后太多,就会先从集合里面删除,等追赶上再加入


broker消息代理

:顾名思义就是负责对数据的读写请求,并将数据写入到磁盘,一般一台服务器启动一个broker实例,一台服务器就是一个broker


举例:

如图:一个集群有8个broker,有p0-p7一共8个分区,副本因子是3(每份数据有三份,看每个broker分区数量,每个分区都有一个leader和两个follower),比如第一个broker,p0和p2分区是follower,所以第一个broker只是负责让他们同步p1分区的数据,而对p1分区进行数据请求处理

参考:

Producer:消息生产者,向Kafka中发布消息的角色。

Consumer:消息消费者,即从Kafka中拉取消息消费的客户端。

Consumer Group:消费者组,消费者组则是一组中存在多个消费者,消费者消费Broker中当前Topic的不同分区中的消息,消费者组之间互不影响,所有的消费者都属于某个消费者组,即消费者组是逻辑上的一个订阅者。某一个分区中的消息只能够一个消费者组中的一个消费者所消费

Broker:经纪人,一台Kafka服务器就是一个Broker,一个集群由多个Broker组成,一个Broker可以容纳多个Topic。
Topic:主题,可以理解为一个队列,生产者和消费者都是面向一个Topic

Partition:分区,为了实现扩展性,一个非常大的Topic可以分布到多个Broker上,一个Topic可以分为多个Partition,每个Partition是一个有序的队列(分区有序,不能保证全局有序)

Replica:副本Replication,为保证集群中某个节点发生故障,节点上的Partition数据不丢失,Kafka可以正常的工作,Kafka提供了副本机制,一个Topic的每个分区有若干个副本,一个Leader和多个Follower

Leader:每个分区多个副本的主角色,生产者发送数据的对象,以及消费者消费数据的对象都是Leader。

Follower:每个分区多个副本的从角色,实时的从Leader中同步数据,保持和Leader数据的同步,Leader发生故障的时候,某个Follower会成为新的Leader。

一个Topic会产生多个分区Partition,分区中分为Leader和Follower,消息一般发送到Leader,Follower通过数据的同步与Leader保持同步,消费的话也是在Leader中发生消费,如果多个消费者,则分别消费Leader和各个Follower中的消息,当Leader发生故障的时候,某个Follower会成为主节点,此时会对齐消息的偏移量。

原文链接:https://blog.csdn.net/cao1315020626/article/details/112590786

看完这篇Kafka,你也许就会了Kafka-CSDN博客

相关推荐
今天只学一颗糖8 分钟前
Linux学习笔记--查询_唤醒方式读取输入数据
笔记·学习
jc062012 分钟前
4.3-中间件之Kafka
分布式·中间件·kafka
2351632 分钟前
【并发编程】详解volatile
java·开发语言·jvm·分布式·后端·并发编程·原理
GIS学姐嘉欣32 分钟前
【智慧城市】2025年中国地质大学(武汉)暑期实训优秀作品(5):智慧矿产
学习·gis·智慧城市·webgis
折翼的恶魔39 分钟前
前端学习之样式设计
前端·css·学习
虫师c1 小时前
分布式缓存实战:Redis集群与性能优化
redis·分布式·缓存·redis集群·高可用架构·生产环境·数据分片
WnHj4 小时前
kafka的数据消费通过flinksql 入数到Doris的报错(Connection timed out)
分布式·kafka
光影少年7 小时前
angular生态及学习路线
前端·学习·angular.js
哥不是小萝莉8 小时前
Kafka监控工具 EFAK-AI 介绍
ai·kafka
逆小舟11 小时前
【C/C++】指针
c语言·c++·笔记·学习