1-【源码剖析】kafka核心概念

从今天开始开始在csdn上记录学习的笔记,主要包括以下几个方面:

  • kafka
  • flink
  • doris

本系列笔记主要记录Kafka学习相关的内容。在进行kafka源码学习之前,先介绍一下Kafka的核心概念。

消息

消息是kafka中最基本的数据单元,由key和value组成,都是字节数组。key主要来实现路由功能,value是真正的有效负载。

topic&分区&Log

topic是用于存储消息的逻辑概念,是一个消息集合。

每个topic可以划分为多个分区,每个分区内的数据是不重叠的,每个消息在添加到分区时,都会分配一个编号offset,来保证消息在分区内的顺序。

分区在逻辑上对应着一个Log,当生产者将消息写入分区时,实际上是写入到了分区对应的Log中。Log是一个逻辑概念,可以对应磁盘上的一个文件夹,Log由多个Segment组成,每个Segment对应一个日志文件和索引文件。

保留策略&日志压缩

发送到kafka的数据会被保存下来,但不会像数据库那样永久保存,为了避免数据库被占满,kafka有相应的保留策略,周期性删除陈旧消息。kafka中有两种保留策略:基于时间和topic大小的保留策略。

kafka会对存储的消息进行压缩,以减少磁盘占用。

broker

一个单独的kafka server就是一个broker。broker的主要工作就是接收生产者发过来的消息,同时接收消费者的请求,返回存储的数据。一般一个broker占一台物理机器。

副本

kafka对消息进行了冗余备份,每个分区可以有多个副本,每个副本消息是一样的。每个分区至少有一个副本,所有副本中选取一个当做Leader,其它副本从Leader处拉取消息。

一般情况下,同一分区的多个副本会分配到不同的broker上。一个topic包括多个分区,每个分区的数据是不一样的,可以实现水平扩展,当数据量变大时可以增大分区的数量;每个分区有多个副本,多副本情况下可丢失其中某个副本。

参考书籍《Apache Kafka源码剖析》

相关推荐
珠海西格电力29 分钟前
零碳园区管理系统如何守护能源与数据安全?
大数据·人工智能·分布式·架构·能源
weisian1511 小时前
Java并发编程--44-分布式限流:令牌桶与漏桶算法在网关层的落地
java·分布式·令牌桶算法·漏桶算法·固定窗口算法·滑动窗口算法
Devin~Y4 小时前
大厂Java面试实战:Spring Boot + Redis + Kafka + Kubernetes + RAG 的三轮追问(附答案解析)
java·spring boot·redis·spring cloud·kafka·kubernetes·resilience4j
想你依然心痛5 小时前
HarmonyOS 6(API 23)分布式实战:基于悬浮导航与沉浸光感的“光影协创“跨设备白板系统
分布式·wpf·harmonyos·悬浮导航·沉浸光感
立莹Sir7 小时前
商品中台架构设计与技术落地实践——基于Spring Cloud微服务体系的完整解决方案
分布式·后端·spring cloud·docker·容器·架构·kubernetes
人道领域7 小时前
【Redis实战篇】初步基于Redis实现的分布式锁---基于黑马点评
java·数据库·redis·分布式·缓存
buhuimaren_13 小时前
FastDFS分布式存储
分布式
Devin~Y1 天前
大厂Java面试实战:Spring Boot/Cloud + Redis/Kafka + K8s + RAG/Agent 追问全流程(小Y翻车记)
java·spring boot·redis·spring cloud·kafka·kubernetes·micrometer
独隅1 天前
ZooKeeper 基础原理深度解析
分布式·zookeeper·云原生
MY_TEUCK1 天前
【Redis 高级实战】分布式缓存、 多级缓存与最佳实践一篇打通
redis·分布式·缓存