kafka 的零拷贝原理

在实际应用中,如果我们需要把磁盘中的某个文件内容发送到远程服务器上,那么它必须经过几个拷贝的过程。

  1. 从磁盘中读取目标文件内容拷贝到内核缓冲区
  2. CPU 控制器再把内核缓冲区的数据赋值到用户空间的缓冲区中
  3. 接着在应用程序中,调用 write()方法,把用户空间缓冲区中的数据拷贝到内核下的Socket Buffer中。
  4. 最后,把在内核模式下的 SocketBuffer 中的数据赋值到网卡缓冲区(NIC Buffer)5. 网卡缓冲区再把数据传输到目标服务器上。
    在这个过程中我们可以发现,数据从磁盘到最终发送出去,要经历 4 次拷贝,而在这四次拷贝过程中,有两次拷贝是浪费的,分别是:
  5. 从内核空间赋值到用户空间
  6. 从用户空间再次复制到内核空间
    除此之外,由于用户空间和内核空间的切换会带来 CPU 的上下文切换,对于CPU性能也会造成性能影响。
    而零拷贝,就是把这两次多余的拷贝省略掉,应用程序可以直接把磁盘中的数据从内核中直接传输给Socket,而不需要再经过应用程序所在的用户空间。
    咕泡科技出品,严禁商用
    零拷贝通过 DMA(Direct Memory Access)技术把文件内容复制到内核空间中的ReadBuffer,接着把包含数据位置和长度信息的文件描述符加载到 Socket Buffer 中,DMA 引擎直接可以把数据从内核空间中传递给网卡设备。
    在这个流程中,数据只经历了两次拷贝就发送到了网卡中,并且减少了2 次cpu 的上下文切换,对于效率有非常大的提高。
    所以,所谓零拷贝,并不是完全没有数据赋值,只是相对于用户空间来说,不再需要进行数据拷贝。对于前面说的整个流程来说,零拷贝只是减少了不必要的拷贝次数而已。在程序中如何实现零拷贝呢?
     在 Linux 中,零拷贝技术依赖于底层的 sendfile()方法实现
     在 Java 中,FileChannal.transferTo() 方法的底层实现就是 sendfile() 方法。除此之外,还有一个 mmap 的文件映射机制
    它的原理是:将磁盘文件映射到内存, 用户通过修改内存就能修改磁盘文件。使用这种方式可以获取很大的 I/O 提升,省去了用户空间到内核空间复制的开销。
相关推荐
Evand J5 小时前
【论文复现】MATLAB例程,存在测距误差的WSN无锚点分布式自定位,《WSN中存在测距误差的无锚点分布式自定位方法》
开发语言·分布式·matlab·定位·导航·wsn
格子软件6 小时前
2026年分布式GEO代理流量调度:源码级状态机防重挂实战
java·vue.js·人工智能·spring boot·分布式·vue
2301_801184756 小时前
kafka-zookeeper
分布式·zookeeper·kafka
Devin~Y7 小时前
抖音级短视频推荐与直播带货平台面试实战:从 Java 微服务到 RAG 智能客服全链路解析
java·spring boot·redis·spring cloud·kafka·agent·rag
大明者省8 小时前
四大模态大模型训练体系全解析(架构+范式+分布式+算力成本·)
笔记·分布式·架构
格子软件9 小时前
2026年分布式GEO代理架构:多租户动态数据源隔离与流控源码解构
java·vue.js·人工智能·分布式·架构·vue·geo
nbsaas-boot9 小时前
微服务架构下的分布式事务解决方案深度对比与实战选型
分布式·微服务·架构
livemetee9 小时前
关于【Kafka高可用配置】
分布式·kafka
TTBIGDATA9 小时前
【Ambari Plus】11.Kafka 安装
大数据·hadoop·分布式·kafka·ambari·hdp·ambari plus
李昊哲小课10 小时前
Ubuntu26.04 搭建 Hadoop3.5.0 完全分布式
大数据·hadoop·分布式·ubuntu·hdfs·mapreduce