【大数据学习 | kafka高级部分】kafka的文件存储原理

在以上部分的讲解中我们知道了,kafka的使用场景就是在流式处理过程中,充当一个中间缓冲介质 的作用,主要功能是将数据先放入到kafka中计算框架会自己拉取要消费和计算的数据过来,采用poll的方式完全适配自身消费速率 。那么kafka的存储和hdfs的存储的区别非常清楚的就可以提现出来,hdfs更加适用于整体的存储和取出,kafka主要做的是流,数据都是按照条进行流转的,主打的是灵活和效率,那么效率提现在哪些方面上呢???

首先topic是按照分区进行划分的 ,因为多个分区可以将存储的数据放入到不同的机器节点上 ,这样起到负载均衡的作用,所以每个broker机器节点上面存储的数据都是多个topic的不同的分区的数据,这样分布式处理可以增加kafka的计算和处理能力

所以broker上面会管理很多topic的不同partition的数据,存储的结构就是以topic-partition方式进行命名的文件夹存储数据 ,但是随着数据的增加,单个分区的数据也会随之增多,这样管理和检索都在一个文件中也是非常低效率的,解决办法就是单个分区的数据也会切段进行存储,每个段称之为segment。

每一个段称之为一个segement。

在官网中形容的是单个日志文件的最大值,默认是1G。

这样不管找寻什么样的数据都会直接找寻相应的segment段落就行了,不管数据多大,其检索范围也不会超过1G。

但是一个G的文件检索还是比较大的,所以kafka在存储数据的时候,首先存储数据在内存中 ,然后将数据刷写到磁盘上 ,这个刷写的大小 是以4K为主的。

在这个插入过程 中会追加的形式 存储到log文件中 ,并且在index和timeindex中存在稀疏的索引数据。

这个时候查询的时候就可以直接去根据文件条数命名的对应segment中查询数据。能够轻易的跳过1G的部分

在具体查询数据的时候可以根据index去log中查询数据,速度更快,效率更高

检索过程为先跳过整体segment部分,然后在segment部分找到index,根据index找到相对应偏移量位置,然后找寻log日志中的数据

以如此方式进行数据检索,这样的存储格式让检索效果更佳明显

以上只是kafka的存储方式之一,主要是为了让数据存储更加方便管理和检索

相关推荐
小钻风33666 小时前
Kafka 零基础实操命令大全
分布式·kafka
程序猿追6 小时前
在 HarmonyOS 模拟器上种出斐波那契螺旋线
大数据·人工智能·microsoft·华为·harmonyos
basketball6167 小时前
SQL 常用数据格式化操作方法总结
数据库·sql
ZC跨境爬虫8 小时前
模块化烹饪小程序开发日记 Day7:(菜谱详情接口开发与JSON数据读取全流程)
前端·javascript·css·ui·微信小程序·json
玄米乌龙茶1238 小时前
LLM成长笔记(十二):质量评估与可观测性
大数据·人工智能·笔记
oo哦哦9 小时前
星链引擎矩阵系统深度解析:AI驱动下的全域智能营销SaaS新范式
大数据·人工智能·矩阵
oo哦哦9 小时前
轻量化内容中台如何破解企业矩阵运营困局?以星链引擎为例的技术解析
大数据·人工智能·矩阵
handler019 小时前
【MySQL】教你库与表的增删查改操作(基础)
运维·数据库·笔记·sql·mysql·数据·分析
姚不倒10 小时前
从零实现一个基于 Ollama + Go + MySQL 的 Text-to-SQL 智能体(M1 实战)
sql·mysql·云原生·golang
weixin_4083180411 小时前
教育行业直播系统搭建指南
java·大数据·数据库