【大数据学习 | kafka高级部分】kafka的快速读写

1. 追加写

根据以上的部分我们发现存储的方式比较有规划是对于后续查询非常便捷的,但是这样存储是不是会更加消耗存储性能呢?

其实kafka的数据存储是追加形式的,也就是数据在存储到文件中的时候是以追加方式拼接到文件末尾的,这样就非常快速的跳过了文件的检索。

机械磁盘的文件检索需要使用到磁头进行不断扫描数据,如果存储大量的小文件或者存储位置不同的时候需要不停的扫描检索文件的位置,这个过程是非常浪费时间的,但是kafka的数据完全以追加的方式存储到磁盘中的,那么这个时候就完全省去了这样的一个过程,使得机械磁盘的性能和固态的性能相差无几索步骤。

我们可以看到经过测试,机械磁盘的存储性能可以达到600M/s 但是随机读写就比较慢100k/s

所以追加写造就了kafka的高写入性能。

写入的速度非常快,那么读取的性能是如何保证的呢?

首先kafka的数据就是以分区作为单位进行分布式管理的,所以多个机器共同管理,效果更加明显

前文中说过kafka的存储是按照segment切分的,并且存储的数据是带有index索引的,这个速度可以几乎直接定位到相应的检索文件。

并且kafka还实现了零拷贝技术。

2. 零拷贝技术

首先我们可以看到普通的存储在磁盘上的文件要想发送出去的话,需要走以上的步骤

通过内核和用户空间的加载,反反复复经过4次加载和拷贝过程,这个过程是非常消耗性能和io的

其实直白来说,如果数据加载的过程中不走用户缓冲区的话直接以内核加载一次的方式进行传输效率是更加高效的。

所以使用到零拷贝技术,方式就是只将数据从磁盘加载到内存中一次,然后直接从内核空间将数据发送到网卡从而直接传输给消费者端。

零拷贝技术的本质就是怎么减少数据的复制过程,并不是没有数据的复制

这个实现方式就是使用到sendFile的系统函数,它可以直接实现系统内存的映射。

相关推荐
半新半旧1 小时前
python 整合使用 Redis
redis·python·bootstrap
mykyle2 小时前
Elasticsearch-ik分析器
大数据·elasticsearch·jenkins
itLaity2 小时前
基于Kafka实现简单的延时队列
spring boot·分布式·kafka
Goona_2 小时前
拒绝SQL恐惧:用Python+pyqt打造任意Excel数据库查询系统
数据库·python·sql·excel·pyqt
weixin_lynhgworld3 小时前
淘宝扭蛋机小程序系统开发:重塑电商互动模式
大数据·小程序
daixin88483 小时前
什么是缓存雪崩?缓存击穿?缓存穿透?分别如何解决?什么是缓存预热?
java·开发语言·redis·缓存
daixin88485 小时前
Redis过期数据的删除策略是什么?有哪些?
数据库·redis·缓存
RPA+AI十二工作室5 小时前
影刀RPA_Temu关键词取数_源码解读
大数据·自动化·源码·rpa·影刀
rufeii5 小时前
[极客大挑战 2019]FinalSQL--布尔盲注
sql
Sui_Network6 小时前
探索 Sui 上 BTCfi 的各类资产
大数据·人工智能·科技·游戏·区块链