RDMA几乎已经成为AI基础设施的"事实标准",当AI大模型参数突破万亿甚至十万亿级别,单台服务器早已无法独立完成训练。万卡级算力集群的算力虽然空前强大,但网络的通讯耗时占比已达到30%~50%。换句话说,如果网络不畅,再强的算力也得"等数据"。要理解RDMA在其中的角色,就需要先厘清两项根本性的技术创新。
一、技术创新:从GPU Direct RDMA到无损网络
RDMA在AI领域的成功,并非偶然,它源自两个关键的突破:一项革命性的软硬件协同技术和一套为AI设计的网络地基。
1、GPU Direct RDMA:绕过CPU的直接对话
这项技术由NVIDIA与Mellanox共同研发,并于2012年正式发布。传统数据传输中,GPU与网卡通信需要CPU在中间做多次的内存拷贝和处理,此过程会引入巨大开销。GPU Direct RDMA则彻底打破了这一瓶颈,让GPU的内存可以直接"对话"网卡,数据从GPU直达网卡,再通过RDMA(绕过对方CPU)直接写入远端GPU内存。这一跳跃,直接打通了GPU集群之间最高效的通信路径,是超大规模并行训练的基石。如今的AI训练集群都依赖于这项技术。
2、无损网络:从尽力而为到精确控制
有了高速的数据通道,还必须保证传输的绝对可靠。AI集群需要在网络层面尽量达成"无损"传输。这项重任最终落到了RoCE身上,这项主流技术通过PFC(基于优先级的流量控制)反压和ECN(显式拥塞通知)标记等技术手段改造以太网,使其具备精确的数据流控制能力,为高速运输建立起稳固的"重载铁路",同时因其具备存在ACK机制,因此少量乱序或丢包也不会对流量产生较大影响。
二、角色定位:AI基础设施的网络命脉
在这两大技术之上,RDMA在AI生态中扮演着无可替代的 " 算力枢纽" 角色,它主要在以下两个层面发挥作用:
1、分布式训练的高速公路网
AI集群中的GPU需要以微秒级的延迟同步参数,否则每个GPU都得停下来等待。使用RDMA后,GPU的迭代训练能像在宽阔的高速公路上飞驰,大大缩短模型训练周期。
2、打破算力孤岛的资源池化
有了RDMA,就能将分散的物理GPU资源整合成一个巨大的逻辑资源池,并根据任务需求动态分配。这对适应AI任务波动的公有云和大模型训练至关重要。
三、产业全景:两大主流技术与新的竞争格局
目前,RDMA在AI领域的部署主要存在两大技术路线:
- InfiniBand (IB):专为高性能计算设计,具备极高带宽和极低延迟。全球约60%的顶级超算中心采用了InfiniBand,这是追求极致性能的"专线"方案。
- RoCE (RDMA over Converged Ethernet):基于标准以太网演进,兼具高性能和成本优势,因此更受主流数据中心的青睐。
四、应用领域:从AI训练到无处不在的"快车道"
除了AI训练,RDMA已深入到更多领域:
- 高性能计算(HPC);
- 分布式存储(NVMe-oF);
- 云端服务与微服务;
- 金融交易领域;
在这些应用中,低延迟能让微服务间的调用更快,支持更敏捷的业务响应;高频交易需要微秒级的响应速度,RDMA提供的确定性低延迟正是其关键。
五、未来展望:从物理极限到架构创新
AI对算力和网络的需求无止境。当数据传输速率逼近物理极限时,RDMA也正孕育着新的变革:
- 多路径可靠连接 (MRC):NVIDIA推出的新型传输协议支持一个RDMA连接在多个网络路径上同时、智能地分发流量,大幅提升吞吐量和负载均衡能力,并可实时动态规避拥塞路径。
- 国产原生RDMA的崛起:中科曙光的RDMA采用基于信用的无损流控机制,链路故障恢复小于1毫秒,网卡最大QP数支持提升100%,单子网可支撑11.4万卡集群,总成本降低30%。
- 端边协同的传输优化:学术界也提出新的框架,将SmartNIC的处理能力与CPU端协议栈深度协同,共同承担复杂的传输控制任务。