【大数据学习 | kafka高级部分】kafka的快速读写

1. 追加写

根据以上的部分我们发现存储的方式比较有规划是对于后续查询非常便捷的,但是这样存储是不是会更加消耗存储性能呢?

其实kafka的数据存储是追加形式的,也就是数据在存储到文件中的时候是以追加方式拼接到文件末尾的,这样就非常快速的跳过了文件的检索。

机械磁盘的文件检索需要使用到磁头进行不断扫描数据,如果存储大量的小文件或者存储位置不同的时候需要不停的扫描检索文件的位置,这个过程是非常浪费时间的,但是kafka的数据完全以追加的方式存储到磁盘中的,那么这个时候就完全省去了这样的一个过程,使得机械磁盘的性能和固态的性能相差无几索步骤。

我们可以看到经过测试,机械磁盘的存储性能可以达到600M/s 但是随机读写就比较慢100k/s

所以追加写造就了kafka的高写入性能。

写入的速度非常快,那么读取的性能是如何保证的呢?

首先kafka的数据就是以分区作为单位进行分布式管理的,所以多个机器共同管理,效果更加明显

前文中说过kafka的存储是按照segment切分的,并且存储的数据是带有index索引的,这个速度可以几乎直接定位到相应的检索文件。

并且kafka还实现了零拷贝技术。

2. 零拷贝技术

首先我们可以看到普通的存储在磁盘上的文件要想发送出去的话,需要走以上的步骤

通过内核和用户空间的加载,反反复复经过4次加载和拷贝过程,这个过程是非常消耗性能和io的

其实直白来说,如果数据加载的过程中不走用户缓冲区的话直接以内核加载一次的方式进行传输效率是更加高效的。

所以使用到零拷贝技术,方式就是只将数据从磁盘加载到内存中一次,然后直接从内核空间将数据发送到网卡从而直接传输给消费者端。

零拷贝技术的本质就是怎么减少数据的复制过程,并不是没有数据的复制

这个实现方式就是使用到sendFile的系统函数,它可以直接实现系统内存的映射。

相关推荐
Kagol7 小时前
macOS 和 Windows 操作系统下如何安装和启动 MySQL / Redis 数据库
redis·后端·mysql
你觉得2057 小时前
哈尔滨工业大学DeepSeek公开课:探索大模型原理、技术与应用从GPT到DeepSeek|附视频与讲义下载方法
大数据·人工智能·python·gpt·学习·机器学习·aigc
啊喜拔牙7 小时前
1. hadoop 集群的常用命令
java·大数据·开发语言·python·scala
IT成长日记7 小时前
【Kafka基础】Kafka工作原理解析
分布式·kafka
别惊鹊7 小时前
MapReduce工作原理
大数据·mapreduce
8K超高清7 小时前
中国8K摄像机:科技赋能文化传承新图景
大数据·人工智能·科技·物联网·智能硬件
hzulwy8 小时前
Redis常用的数据结构及其使用场景
数据库·redis
2401_871290589 小时前
MapReduce 的工作原理
大数据·mapreduce
ashane13149 小时前
Redis 哨兵集群(Sentinel)与 Cluster 集群对比
redis
州周9 小时前
kafka副本同步时HW和LEO
分布式·kafka