集群网络技术1:RDMA和相关协议

一、核心概念:为什么需要RDMA?

传统网络通信的问题(TCP/IP栈的瓶颈) 在传统的网络通信(如标准的TCP/IP Socket)中,数据从应用层到网卡需要经过复杂的路径:

1.应用将数据放入内存缓冲区。

2.操作系统内核接管,进行TCP/IP协议栈的处理(封装包头、校验等)。

3.数据从用户内存空间拷贝到内核的内存空间。

4.内核通过驱动程序通知网卡取数据。

5.网卡从内核内存中读取数据并发送。 这个过程涉及多次上下文切换(用户态/内核态切换)和内存拷贝,消耗大量的CPU周期和内存带宽。当网络速度达到200G、400G时,CPU会花费绝大部分时间来处理网络协议栈本身,而不是运行业务程序,这被称为"协议栈开销"。

RDMA(Remote Direct Memory Access)远程直接内存访问 RDMA技术的诞生就是为了解决上述瓶颈。它的核心思想是绕过操作系统内核,实现网络中一台计算机的网卡直接访问另一台计算机的内存。

二、RDMA的三个核心特征:

1.零拷贝:数据直接从应用的用户态内存发送到远程网卡,并写入远程应用的用户态内存,无需经过内核缓冲区。

2.内核旁路:应用可以直接向网卡提交指令,无需操作系统介入,减少了上下文切换。

3.无CPU参与:数据传输过程完全由网卡硬件处理,CPU几乎不干预,可以解放出来处理计算任务。

三、带来的好处:

1.超低延迟:从毫秒级降低到微秒级。

2.高吞吐:能充分发挥200G/400G网络的带宽。

3.极低的CPU占用率:即使网络流量满载,CPU使用率也几乎为零。

四、RDMA是一个技术理念,它需要通过具体的协议来实现。

主要有三种:

InfiniBand: 专为RDMA设计的网络,从硬件层就原生支持RDMA,性能最好,但需要专用的交换机和网线,成本高。

RoCE: RDMA over Converged Ethernet(基于融合以太网的RDMA)。它允许在标准的以太网上运行RDMA,从而利用现有、廉价且普及的以太网基础设施。这是目前最主流的方案。

iWARP: 另一种在TCP/IP上实现RDMA的协议,但由于TCP的复杂性,其性能和延迟通常不如RoCE。

相关推荐
星寂樱易李7 小时前
iperf3 + Python-- 网络带宽、网速、网络稳定性
开发语言·网络·python
YDS8297 小时前
DeepSeek RAG&MCP + Agent智能体项目 —— RAG知识库的搭建和接口实现
java·ai·springboot·agent·rag·deepseek
随身数智备忘录10 小时前
什么是设备管理体系?设备管理体系包含哪些核心模块?
网络·数据库·人工智能
第五文修10 小时前
手机OTG转TTL网口实现ping功能
网络·智能手机
云边云科技_云网融合11 小时前
企业大模型时代的网络架构五层演进:从连接到智能的范式重构
网络·重构·架构
xhbh66613 小时前
代理ARP (Proxy ARP) 是如何实现跨网段通信的?在Linux下如何配置?
服务器·网络·智能路由器·端口映射·映射
阿里云大数据AI技术13 小时前
Hologres CLI与Skills担当Agent-Ready 基础设施,共建数仓智能新生态_
人工智能·阿里云·agent·hologres·skills
数智化管理手记14 小时前
精益生产3步实操,让现场从混乱变标杆
大数据·运维·网络·人工智能·精益工程
XiYang-DING14 小时前
【Java EE】TCP—可靠传输
网络·tcp/ip·java-ee
沃虎电子14 小时前
片式网络变压器:从“手工品”到“SMD元件”的产业跨越
网络·片式网络变压器