Linux编程：DMA增加UDP 数据传输吞吐量并降低延迟

文章目录

- [0. 引言](#0. 引言)
- [1. 原理介绍](#1. 原理介绍)
- - [1.1 DMA 与中断的协同机制](#1.1 DMA 与中断的协同机制)
  - [1.2. DMA优化UDP 数据包发送](#1.2. DMA优化UDP 数据包发送)
- [2. DMA 配置优化](#2. DMA 配置优化)

0. 引言

UDP 网络传输常面临高 CPU 占用、传输延迟和丢包等挑战。本文将介绍 DMA 如何优化 UDP 数据包的发送，以提高吞吐量、减少延迟并降低 CPU 占用。

阅读本文时请同步阅读: Linux 编程：高实时性场景下的内核线程调度与网络包发送优化

1. 原理介绍

1.1 DMA 与中断的协同机制

DMA 和中断协同工作能够显著提高数据传输效率。

中断机制：通过中断通知 CPU 事件发生，避免轮询带来的资源浪费，并及时响应实时数据。
DMA 技术 ：如果没有 DMA，CPU 将会直接参与每次数据的传输（例如，使用 memcpy()）；而DMA 允许外设与内存直接传输数据，减少 CPU 参与，避免上下文切换，提高传输效率。
DMA 多通道：DMA 控制器通常具有多个 DMA 通道，针对不同的外设和数据传输需求，可以为不同的设备配置不同的 DMA 通道。例如，数据传感器可以通过 DMA 将数据直接写入到特定的内存缓冲区，这样 CPU 只需处理数据，而无需干预数据传输。

1.2. DMA优化UDP 数据包发送

DMA可以优化高频数据流的场景UDP 数据传输，原因如下：

减少 CPU 负担：传统 UDP 传输中，CPU 需要处理数据复制和协议栈操作，而 DMA 允许 NIC(网络接口卡) 直接从内存读取数据并打包为 UDP 数据包发送，减少CPU 干预。
大数据包优化：在带宽需求较高的场景中（如在视频流、激光雷达数据等），DMA 避免了内存拷贝。
缓存一致性问题 ：DMA 直接传输数据，DMA 目标内存区域与其他内存区域隔离，可避免数据竞争或缓存污染。在高性能应用中，可以使用 缓存一致性 或 非缓存区（nocache memory） 来确保 DMA 写入的内存区域与 CPU 的其他操作不冲突。

下面描述 DMA 与网络驱动的关系。
supports 1 1..* configures 1 1..* accesses 1 1 configures 1 1 manages 1 1 <<hardware>> NIC +sendData() +receiveData() +supportDMA() <<software>> NetworkDriver +initializeDMA() +manageBuffer() +configureNIC() <<hardware>> DMA +transferData() +accessMemory() <<hardware>> Memory +storeData()

NIC（网络接口卡）：网络接口卡是支持 DMA 的硬件，能够直接将数据从内存传输到网络接口。
NetworkDriver（网络驱动程序）：网络驱动程序负责初始化和配置 DMA、管理网络接口卡的 DMA 缓冲区和传输设置。驱动程序负责处理与 DMA 相关的操作，如配置 DMA 缓冲区、启动 DMA 传输等。
DMA（直接内存访问）：DMA 控制器在硬件层面负责数据传输，它能够在内存和外设（例如 NIC）之间直接传输数据。DMA 不需要 CPU 参与，从而降低了 CPU 的负担，尤其在大规模数据传输时。
Memory（内存）：内存是数据存储的地方，网络驱动程序会将要发送的数据存储在内存中，DMA 会从内存中读取这些数据并传输到网络接口卡。

2. DMA 配置优化

为了最大化 DMA 在 UDP 数据包发送中的效果，需要在多个层面进行配置和调优。

DMA 缓冲区配置 ：确保 DMA 缓冲区足够大，以便能够高效地处理大块数据传输；过小的缓冲区可能导致频繁的 DMA 传输，增加延迟和 CPU 占用。在 BSP 配置中（或者网络驱动程序中），可以调整 DMA 缓冲区的大小，以提高每次传输的数据量。

然而，过大的 DMA 缓冲区可能导致单次数据传输时间更长，从而引入较大的延迟。
DMA 内存对齐：确保 DMA 缓冲区的内存对齐以优化数据传输速度。大多数 DMA 控制器要求数据缓冲区按照特定的内存边界对齐，通常是 4 字节或 8 字节对齐。内存对齐不足会导致额外的延迟。
启用零拷贝：在网络驱动程序中，启用零拷贝支持，以便 NIC 直接将数据从用户空间传输至网络接口，减少内存复制开销；双缓冲技术可以减少等待时间，提高吞吐量。
减少中断数量 ：传统的做法是每次完成 DMA 传输后触发一个中断。如果每个传输都产生中断，会导致大量的上下文切换和 CPU 占用。通过配置中断合并，可以将多个 DMA 完成的中断合并为一个中断，从而减少中断的开销。

在 BSP 或内核配置中，可以配置中断合并或中断调度，以减少不必要的中断频率。
大帧传输（Jumbo Frames）：许多 NIC 支持 Jumbo Frames（超大帧）。启用这一特性后，网络接口卡可以一次发送更大的数据包，减少每个数据包的头部开销，从而提升网络吞吐量。