Kafka 的服务端的物理存储架构是什么?零拷贝,mmap,sendfile、DMA gather又是什么?

Kafka 服务端的物理存储架构

Kafka 的物理存储架构设计旨在支持高吞吐、低延迟的数据处理,其核心特点包括:

1. 分区与日志段
  • 主题(Topic)与分区(Partition)

    Kafka 将每个主题划分为多个分区,每个分区是一个有序、不可变的消息序列。

    • 分区在物理上对应一个目录,目录名为 <topic>-<partition>(如 orders-0)。
    • 分区支持水平扩展,不同分区的数据可分布在不同的 Broker 上。
  • 日志段(Log Segment)

    每个分区的数据被拆分为多个固定大小的日志段文件(默认 1GB),追加写入。

    • 数据文件(.log) :存储实际消息,文件名基于当前日志段的第一条消息的偏移量(如 00000000000000000000.log)。
    • 索引文件(.index 和 .timeindex)
      • .index:消息偏移量到物理位置的映射(支持按偏移量快速定位)。
      • .timeindex:时间戳到偏移量的映射(支持按时间范围查询)。
2. 存储优化机制
  • 顺序写入:消息仅追加到当前活跃日志段末尾,充分利用磁盘顺序 IO 性能(远高于随机 IO)。
  • 分段滚动(Segment Rolling)
    当日志段达到阈值(大小或时间)时,关闭当前段并创建新段,旧段可被异步删除或压缩。
  • 稀疏索引:索引文件仅记录部分消息的偏移量,通过二分查找快速定位目标消息范围,减少内存占用。

零拷贝、mmap、sendfile、DMA gather 详解

1. 零拷贝(Zero-Copy)
  • 传统数据拷贝流程(以读取文件并发送到网络为例):

    1. 磁盘 → 内核缓冲区(DMA 拷贝)
    2. 内核缓冲区 → 用户缓冲区(CPU 拷贝)
    3. 用户缓冲区 → 内核网络缓冲区(CPU 拷贝)
    4. 内核网络缓冲区 → 网卡(DMA 拷贝)
      问题:多次数据拷贝和上下文切换,CPU 开销大。
  • 零拷贝优化

    • 目标:消除冗余的数据拷贝和 CPU 参与。
    • 实现技术
      • sendfile(Linux 系统调用):直接在内核空间完成文件数据到网络的传输,无需用户缓冲区。
      • mmap(内存映射文件):将文件映射到用户空间内存,减少用户态与内核态的数据拷贝。
      • DMA gather:支持从多个非连续内存区域直接传输数据到设备(如网卡),避免合并缓冲区的开销。
2. mmap(Memory-Mapped Files)
  • 原理
    将磁盘文件映射到进程的虚拟内存地址空间,进程通过指针直接读写内存,操作系统负责将修改同步到磁盘。
  • 在 Kafka 中的应用
    • 生产者写入 :通过 mmap 将日志文件映射到内存,消息直接追加到内存映射区域,由操作系统异步刷盘。
    • 消费者读取 :快速访问已映射的文件数据,减少 read 系统调用次数。
  • 优点:减少用户态与内核态的上下文切换,提升 IO 效率。
3. sendfile
  • 原理
    Linux 提供的系统调用,用于将文件内容直接从文件描述符传输到 Socket 描述符,全程在内核态完成。

    c 复制代码
    #include <sys/sendfile.h>
    ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);
  • 在 Kafka 中的应用

    • 消费者拉取消息 :Broker 使用 sendfile 将日志文件数据直接发送到网络,无需经过用户缓冲区。
    • 优势:消除两次 CPU 拷贝(内核缓冲区 ↔ 用户缓冲区 ↔ Socket 缓冲区)。
4. DMA gather(Scatter-Gather DMA)
  • 原理
    • Scatter(分散):从多个非连续内存区域读取数据并传输到设备(如网卡)。
    • Gather(聚集):从设备读取数据并写入多个非连续内存区域。
    • 作用:避免 CPU 将分散的数据块合并到连续缓冲区,减少拷贝开销。
  • 在 Kafka 中的应用
    结合 sendfile,DMA 控制器可以直接从多个日志段文件的分散内存区域(通过 mmap 映射)收集数据并发送到网络。

Kafka 高性能传输流程示例

以消费者从 Kafka Broker 拉取消息为例,零拷贝技术的协作流程如下:

  1. 消费者请求数据:指定 Topic-Partition 和偏移量。
  2. Broker 定位数据
    • 通过 .index 文件找到目标消息所在的日志段和物理位置。
  3. 数据读取与发送
    • mmap:日志段文件已映射到内存,直接通过内存地址访问数据。
    • sendfile + DMA gather
      • sendfile 系统调用触发 DMA 控制器从内存映射区域(可能多个不连续块)读取数据。
      • DMA 控制器将数据直接传输到网卡缓冲区,全程无需 CPU 参与数据拷贝。

对比传统 IO 与零拷贝

步骤 传统 IO 零拷贝(sendfile + mmap)
磁盘到内核缓冲区 DMA 拷贝 DMA 拷贝
内核到用户缓冲区 CPU 拷贝 无需
用户到网络缓冲区 CPU 拷贝 无需
网络缓冲区到网卡 DMA 拷贝 DMA 拷贝
总拷贝次数 4 次(2 次 DMA,2 次 CPU) 2 次(仅 DMA)
上下文切换 4 次(read/write 系统调用) 2 次(sendfile 系统调用)

🐶

技术 核心作用 在 Kafka 中的应用场景
零拷贝 消除冗余数据拷贝,降低 CPU 开销 消费者拉取消息、日志同步
mmap 文件映射到内存,减少系统调用 生产者写入日志、消费者读取数据
sendfile 内核态直接传输文件到网络 Broker 向消费者发送消息
DMA gather 支持非连续内存区域直接传输 结合 sendfile 提升网络发送效率

Kafka 通过物理存储架构的优化(分区、日志段、稀疏索引)与零拷贝技术(mmap、sendfile、DMA gather)的结合,实现了高吞吐、低延迟的数据处理能力。理解这些机制有助于优化 Kafka 集群的配置与调优(如调整日志段大小、合理使用压缩)。

相关推荐
conkl1 小时前
嵌入式 Linux 深度解析:架构、原理与工程实践(增强版)
linux·运维·服务器·架构·php·底层·堆栈
智践行3 小时前
ROS2 Jazzy:执行器
架构
●VON6 小时前
重生之我在暑假学习微服务第七天《微服务之服务治理篇》
java·学习·微服务·云原生·nacos·架构·springcloud
贾全6 小时前
Transformer架构全解析:搭建AI的“神经网络大厦“
人工智能·神经网络·ai·语言模型·自然语言处理·架构·transformer
潘锦8 小时前
架构师必备:解决技术问题当从第一性原理开始
架构·cto
kaliarch8 小时前
IaC 管控资源发生属性偏移修正方案
后端·架构·自动化运维
曾经的三心草9 小时前
微服务的编程测评系统9-竞赛新增-竞赛编辑
微服务·架构·状态模式
武子康9 小时前
大数据-58 Kafka 消息发送全流程详解:序列化、分区策略与自定义实现
大数据·后端·kafka
数据智能老司机9 小时前
DevOps 安全与自动化——理解 DevOps 文化与原则
架构·自动化运维·devops
数据智能老司机9 小时前
DevOps 安全与自动化——开发环境搭建
架构·自动化运维·devops