Kafka文件存储机制

Topic是逻辑上的概念,而partition是物理上的概念,每个partition对应于一个log文件,该log文件中存储的就是Prodcuer生产的数据,Producer生产的数据会被不断追加到该log文件末端,为防止log文件过大导致数据定位效率低下,Kafka采取了分片和索引机制,将每个partition分为多个segment,每个segment包括:".index文件"".log"文件和.timeindex等文件,这些文件位于一个文件夹下,该文件夹的命名规则为:topic名称+分区序号,例如first-0,(server.properties文件里面log.dirs的路径下可以找到该文件夹)

一个topic分为多个partition

一个partition分为多个segment

一个segment由如下部分组成:

.log 日志文件(存储实际数据)
.index 偏移量索引文件
.timeindex 时间戳索引文件

其他文件

说明:indexlog文件以当前segment的第一条消息的offset命名

这里的配置如下:

查看文件:

查看topic为four,0号分区的数据

直接查看log日志和index文件是乱码

可以通过工具查看indexlog信息

c 复制代码
kafka-run-class.sh kafka.tools.DumpLogSegments --files 00000000000000000000.index

注意:
index为稀疏索引,大约每往log文件写入4kb数据,会往index文件写入一条索引,参数log.index.interval.bytes默认为4kb

index文件中保存的offset为相对offset,这样能确保offset的值所占空间不会过大,因此能将offset的值控制在固定大小

  1. 根据目标offset定位segment文件
  2. 找到小于等于目标offset的最大offset对应的索引项
  3. 定位到log文件
  4. 向下遍历找到目标Record

创建topic

创建生产者:

创建生产者:

生产并消费数据

查看数据:

相关推荐
在未来等你20 小时前
Elasticsearch面试精讲 Day 26:集群部署与配置最佳实践
大数据·分布式·elasticsearch·搜索引擎·面试
勤源科技21 小时前
分布式链路追踪中的上下文传播与一致性维护技术
分布式
互联网工匠21 小时前
分布式操作的一致性方案
分布式·架构
熊猫钓鱼>_>21 小时前
【案例实战】鸿蒙分布式智能办公应用的架构设计与性能优化
分布式·华为·harmonyos
没有bug.的程序员1 天前
金融支付分布式架构实战:从理论到生产级实现
java·分布式·微服务·金融·架构·分布式调度系统
在未来等你1 天前
Elasticsearch面试精讲 Day 25:Elasticsearch SQL与数据分析
大数据·分布式·elasticsearch·搜索引擎·面试
有一个好名字1 天前
万字 Apache ShardingSphere 完全指南:从分库分表到分布式数据库生态
数据库·分布式·apache
Aurora_eye1 天前
记录之Ubuntu22.4虚拟机及hadoop为分布式安装
大数据·hadoop·分布式
liangsheng_g1 天前
Kafka服务端处理producer请求原理解析
kafka
斯班奇的好朋友阿法法1 天前
rabbitmq服务端消费端实例(direct和fanout模式)
分布式·rabbitmq·ruby