从零读懂RoCEv2数据包构造:从WQE到线缆上的完整旅程

RoCEv2将InfiniBand的传输层报文封装在UDP/IP中,使得RDMA可以跨路由、跑在标准以太网上。但一个完整的RoCEv2数据包是如何从WQE一步步加上头部、填上校验,最终变成线缆上的比特流的?这篇文章从硬件视角,按构造顺序逐层拆解。

一、起点:WQE里的信息

硬件从SQ中取出WQE,里面已经包含了软件填入的所有参数:

  1. 操作类型:SEND、RDMA WRITE、RDMA READ、ATOMIC等;
  2. 本地数据地址:用于取数据的虚拟地址、长度、L_Key;
  3. 远程地址(针对Write/Read/Atomic):remote_addr和R_Key;
  4. 操作数(Atomic only):compare_add和swap;
  5. 控制标志:是否产生CQE、是否请求ACK等;

硬件接下来要做的,就是把这些信息"翻译"成一个或多个RoCEv2数据包,并添加层层头部。

二、RoCEv2数据包的分层结构

一个典型的RoCEv2数据包从外到内包含以下部分:

  1. MAC头(二层可携带一层vlan);
  2. IP头(IPV4或IPV6);
  3. UDP头;
  4. IB传输层头部(BTH);
  5. IB传输层扩展头部(RETH/AtomicETH等);
  6. IB负载(payload);

而报文如果是分层构造,那则是由内向外构造,首先构建IB负载和传输头,再逐层添加UDP、IP、以太网头。最后计算ICRC(覆盖IB部分)和VCRC(覆盖整个包)。

三、构造IB负载

1、SEND/WRITE:负载就是用户数据。硬件根据WQE中的数据地址,通过PCIE DMA将数据从主机内存搬到网卡包缓冲区;

2、READ请求:无负载。请求包本身只有头部,不含数据;

3、ATOMIC请求:无负载。操作数放在扩展头中;

4、ACK / NAK:无负载,只有头部;

5、对于长消息(超过MTU),硬件会自动拆分为First/Middle/Last多个包,每个包的负载不超过路径MTU。

四、添加IB传输层头部

IB传输层头部以BTH(Base Transport Header,12字节)为必须基础。之后根据操作类型附加不同的扩展头。

BTH的结构在本篇文章不做过多介绍,我们接下来将单独分析这个头部字段分别是什么含义。

五、添加UDP头

RoCEv2强制使用UDP封装。UDP头固定8字节,包含:

  1. 源端口;
  2. 目的端口;
  3. 长度(整个UDP报文长度,从UDP头到IB负载末尾);
  4. UDP校验和(通常设为0);

六、添加IP头

这个也不做过多介绍了,我们仅介绍一下ECN,ECN是两个比特,位置在IPv4 ToS字段的最低2位或IPv6 Traffic Class的最低2位。

七、添加以太网头

以太网头包含:

  1. 目的MAC地址;
  2. 源MAC地址;
  3. vlan tag(根据配置添加);
  4. ether type(0x0800(IPv4)或0x86DD(IPv6));

八、第6步:计算CRC

硬件构造完所有头部和负载后,先计算ICRC并追加到IB负载后,再计算VCRC并追加到帧尾。

1、ICRC(Invariant CRC,4字节)

覆盖范围:IB传输层头部 + 扩展头 + 负载(即UDP负载的全部)。

计算方法:网卡硬件使用多项式(如CRC-32)计算,结果附在IB负载之后。

接收端网卡收到后,首先校验ICRC,丢弃错误包。

2、VCRC(Variant CRC,4字节)

覆盖范围:整个以太帧(从MAC头到ICRC)。

作用:链路层保护,通常由交换机/网卡硬件自动计算和校验。

注意:VCRC是串行线路上的校验,不在最终存储的包格式中显式列出,但硬件在发送前会附加。

九、总结

RoCEv2数据包的构造过程是一个自内向外、逐层封装的流水线:

WQE决定了操作类型、数据源和远程地址。

IB传输层加上BTH和必要的扩展头(RETH/DETH/AtomicETH),并附上数据负载(如果有)。

ICRC覆盖IB部分,保证端到端数据完整性。

UDP+IP封装使得报文可路由,目的端口固定4791,IP头支持ECN。

以太网头完成链路层寻址,可选VLAN支持PFC。

VCRC提供链路层完整性。

硬件流水线几乎不需要软件干预,所有头部填充和CRC计算都在网卡内部完成。理解了这个构造顺序,你就掌握了RoCEv2协议的"骨架"。

相关推荐
王二端茶倒水1 天前
从千兆到万兆:宽带运营不能只卖套餐,要管用户生命周期从千兆到万兆:宽带运营需要管理用户生命周期
后端·网络协议·架构
程序员老赵1 天前
服务器文件不想 SFTP 上传?Docker 跑个 File Browser,浏览器就能管理
服务器·docker·开源
vivo互联网技术1 天前
从 10 分钟到 1 秒:ES 深度分页任意跳页的三轮优化实战
服务器·数据库·redis·elasticsearch·深度分页
extrao3 天前
🚀 Kea DHCP4 自动分配系统完整搭建
网络协议
不做菜鸟的网工5 天前
BGP特性
网络协议
明月_清风7 天前
开发者网络概念全扫盲:一篇搞定
后端·网络协议
刘马想放假7 天前
Modbus 全栈技术解析:TCP、RTU、ASCII、RTU over TCP
数据结构·网络协议
王二端茶倒水8 天前
一套可落地的无线运营方案,不能只管 AP,还要管用户、计费和运维
网络协议