Linux 网络收包的进阶之路：从普通 socket 到 AF_XDP 零拷贝

【深度硬核】Linux 网络收包的进阶之路：从普通 socket 到 AF_XDP 零拷贝

在高性能网络编程领域，"如何让数据包更快地从网线到达用户进程" 是永恒的命题。Linux 内核在过去几十年中，为了应对不断增长的带宽（1G -> 10G -> 100G），演化出了多种收包机制。

本文将深入 Linux 内核底层，像追踪快递一样，详细拆解 普通模式 、AF_PACKET ZeroCopy 、AF_XDP Native 以及 AF_XDP ZeroCopy 这四种收包路径的每一个环节，揭示性能差异背后的物理真相。

------ 负重前行的老黄牛

这是最基础的路径，我们平时写的 recv() / read() 走的都是这条路。它的设计目标是通用性 和协议兼容性，而不是极致性能。

物理到达：网卡 PHY/MAC 接收信号，校验 CRC。
DMA 搬运 ：网卡将数据包通过 DMA 写入内核内存中的 Rx Ring Buffer。
中断触发：网卡发起硬中断，CPU 暂停手头工作，进入中断处理。
软中断调度 ：硬中断关闭当前中断线，触发 NET_RX_SOFTIRQ 软中断（NAPI 机制）。
内存分配 (性能杀手#1) ：驱动程序调用 napi_gro_receive，分配 sk_buff 结构体 （Linux 网络核心元数据，结构庞大），并将数据挂载到 sk_buff 上。
协议栈处理 ：数据包进入 netif_receive_skb。
- L2：处理 VLAN、Bridge。
- L3：IP 校验、路由查找、Netfilter 防火墙 (iptables)。
- L4：TCP/UDP 校验、查找对应的 Socket。
入队：数据被放入 Socket 的接收队列 (sk_receive_queue)。
唤醒用户 ：唤醒阻塞在 recv 上的用户进程。
内核到用户拷贝 (性能杀手#2) ：执行 copy_to_user，CPU 将数据从内核空间的 sk_buff 拷贝到用户空间的 buffer。
上下文切换：CPU 从内核态切回用户态，用户拿到数据。

------ 经典的"伪"零拷贝

这是 libpcap、tcpdump 和一些抓包工具使用的加速模式。它被称为 ZeroCopy，是因为它消除了 内核到用户 (Kernel to User) 的那次拷贝，但它并没有消除所有的 CPU 拷贝。

物理到达 & DMA：同普通模式。
中断 & NAPI：同普通模式。
内存分配 (痛点) ：驱动程序依然需要分配 sk_buff。
协议栈入口 ：进入 netif_receive_skb。
旁路劫持 ：内核发现有 AF_PACKET Socket 注册，调用 tpacket_rcv。此时绕过了 IP/TCP/UDP 协议栈。
内核内拷贝 (隐形消耗) ：内核将 sk_buff 中的数据，CPU Copy 到用户态通过 mmap 映射进来的 共享 Ring Buffer 中。
状态标记：内核修改共享内存中的帧状态（Status Bit），将控制权移交用户。
用户读取 ：用户进程通过 poll 感知，直接读取 共享内存中的数据。

------ 现代高性能的标准答案

从这里开始，我们进入了 eBPF/XDP 的世界。Native 模式需要网卡驱动的支持，它最大的创举是干掉了 sk_buff。

巨大优势 ：完全没有 sk_buff 的分配与释放！这是比减少拷贝更重要的优化。
残余消耗：依然存在一次 CPU 拷贝（从驱动 Ring 到 XDP UMEM）。
适用性：主流网卡驱动（Intel i40e/ixgbe, Mellanox, Broadcom 等）均已支持，兼容性极佳，性能强悍（单核 10M+ pps）。

------ 物理极限的王者

这是真正的硬件级零拷贝。它要求网卡硬件、驱动、内存管理单元高度配合。它实现了网卡直接把数据写到用户能看到的内存里。

初始化：用户态申请一块内存 (UMEM)，通过驱动告诉网卡："兄弟，以后收到的包，直接往这块内存里写，别写你自己的 Ring 了。"
物理到达：网卡接收信号。
DMA 直达 (True ZeroCopy) ：网卡通过 DMA，直接将数据写入 UMEM (用户态共享内存) 。
- 注意：这里没有任何 CPU 参与的数据搬运。
描述符通知：网卡更新描述符环，通知 CPU "包到了"。
XDP 处理：XDP 程序运行（此时只处理元数据，不搬运报文）。
用户读取：用户直接处理 UMEM 中的数据。

特性	普通模式 (recv)	AF_PACKET ZeroCopy	AF_XDP Native	AF_XDP ZeroCopy
核心路径	完整协议栈	协议栈入口截胡	驱动层截胡 (Pre-skb)	DMA 直达用户内存
sk_buff 分配	✅ 有 (重)	✅ 有 (重)	❌ 无 (轻量 xdp_buff)	❌ 无
CPU 数据拷贝	✅ 2次 (内核+用户)	✅ 1次 (内核内)	✅ 1次 (驱动->UMEM)	❌ 0次 (纯DMA)
协议栈开销	全套 (L2/L3/L4)	部分 (L2)	无	无
典型性能 (单核)	< 1M pps	2M - 4M pps	10M - 15M pps	20M - 30M+ pps
硬件要求	无	无	支持 XDP 的驱动	支持 ZC 的网卡