Kafka的分区(partition和副本)

在 Kafka 中,分区(Partition)是一个逻辑上的概念,它将一个主题(Topic)中的消息进行分组。每个分区都有一个唯一的编号,称为分区 ID(Partition ID),它从 0 开始递增。

通过分区,Kafka 可以将大量的消息分布到多个服务器上,从而提高系统的处理能力和吞吐量。

同时,分区也提供了一种灵活的消息分发方式,可以根据不同的需求将消息发送到不同的分区中。 在 Kafka 中,每个分区都有一个对应的文件,称为分区日志(Partition Log)。

分区日志是一个顺序写的日志文件,它存储了该分区中的所有消息。

每个消息都被分配到一个特定的分区中,并被存储在该分区的日志文件中。

Kafka 采用了分布式提交协议(Distributed Commit Protocol)来保证消息的可靠性和一致性。当生产者将消息发送到 Kafka 时,它会将消息存储到内存中,并将其提交到 Kafka 集群。

在提交过程中,Kafka 会将消息写入到对应的分区日志中,并在所有的副本中进行同步。 消费者可以订阅一个或多个主题,并从对应的分区中读取消息。Kafka 会根据消费者的订阅信息,将消息从对应的分区中读取出来,并发送给消费者。通过分区,Kafka 可以实现消息的负载均衡和高可用性。

一个分区同时只能被一个消费组的一个消费者消费。但有可能因为一些原因,这个分区会被分配到其他消费者。比如消费者减少或者增多,分区数量减少或者增多。如果有多个消费组都订阅一个主题,那么同一个分区就会同时被多个消费组的消费者消费。

一个分区内的消息是顺序的。

一个主题(Topic)的不同分区可以分布在不同broker上,这样可以解决单一broker的IO瓶颈问题。

分区有副本,分布在不同broker上。遵从一主多从的关系。leader负责读写。follower负责与leader同步。肯定有时延。

因为同步有时延。副本分为ISR和OSR。ISR就是能跟的上leader进度的(其中包含leader)。OSR就是因为一些原因跟不上leader副本的(不包含leader副本)或者失效的分区副本。

ISR内的follower可以参与leader的重新选主。OSR因为落后过多,不能参与leader重新选主。

leader副本中有两个标识位,一个是HW(High WaterMark),一个是LEO(Log End Offset)。LEO是leader副本中已经写入的消息所在的偏移量。HW是同步到ISR集合中所有副本后的消息的偏移量。消费者只可以读到小于HW偏移量的消息。leader副本的消息全部同步follower后,LEO=HW。表示leader副本内的消息全部可读。

ISR和OSR都是通过zookeeper记录的

副本的数据同步是follower发起的。一个消息只有在同步到所有副本后,才会被认为是已提交

相关推荐
金刚猿8 分钟前
简单理解下基于 Redisson 库的分布式锁机制
分布式·分布式锁·redisson
我一直在流浪30 分钟前
Kafka - 消费者程序仅消费一半分区消息的问题
分布式·kafka
张彦峰ZYF2 小时前
投资策略规划最优决策分析
分布式·算法·金融
B站计算机毕业设计超人3 小时前
计算机毕业设计SparkStreaming+Kafka旅游推荐系统 旅游景点客流量预测 旅游可视化 旅游大数据 Hive数据仓库 机器学习 深度学习
大数据·数据仓库·hadoop·python·kafka·课程设计·数据可视化
processflow流程图4 小时前
分布式kettle调度平台v6.4.0新功能介绍
分布式
全栈开发圈4 小时前
干货分享|分布式数据科学工具 Xorbits 的使用
分布式
运维&陈同学6 小时前
【zookeeper01】消息队列与微服务之zookeeper工作原理
运维·分布式·微服务·zookeeper·云原生·架构·消息队列
时差9536 小时前
Flink Standalone集群模式安装部署
大数据·分布式·flink·部署
菠萝咕噜肉i7 小时前
超详细:Redis分布式锁
数据库·redis·分布式·缓存·分布式锁
Mephisto.java7 小时前
【大数据学习 | Spark】Spark的改变分区的算子
大数据·elasticsearch·oracle·spark·kafka·memcache