rdma

NVME-oF IP 设计7 ：设计扫盲5# QP、WR、CQ、MR 等核心概念RDMA 通信模型中涉及多个核心组件，其中包括队列对（QP）、工作请求（WR）、完成队列（CQ）以及内存区域（Memory Region，MR）等概念，这些组件共同构成了RDMA数据传输机制的基础。

探索未来 AI 算力网络的基石：从传统 RoCE 走向 SRv6 驱动的弹性弹性网络（解析 Netdev 0x1A 创新实践）随着大语言模型和万亿参数 AI 训练的爆发，传统的网络架构正面临前所未有的挑战。在 Netdev 0x1A 会议上，来自 OpenAI、微软、AMD 和博通等技术巨头展示了一项跨越行业合作的突破性成果：如何利用极简的 SRv6（Segment Routing IPv6）与创新的多平面 RoCE 数据包喷洒（Packet Spraying）技术，构建一个具备极高弹性的超大规模 AI 超级计算机网络。

NVME-oF IP 设计5 ：设计扫盲3# RDMA 与 RoCEv2 技术远程直接内存访问（Remote Direct Memory Access，RDMA）是一种高性能网络通信技术，其核心思想是在网络通信过程中绕过操作系统内核，使数据能够直接在应用程序内存之间进行传输，从而显著降低CPU参与度和系统调用开销。传统的TCP/IP网络通信需要经过内核协议栈处理、缓冲区复制以及中断机制等多个阶段，这些操作在高并发和高带宽场景下会产生较大的延迟和CPU开销。相比之下，RDMA技术通过硬件网络接口卡（RNIC）直接完成数据搬运，使远程节点能够直接访问

NVME-oF IP 设计1 ：为什么要设计它？近年来，以NAND Flash为核心的固态硬盘（Solid State Drive，SSD）凭借其高带宽、低延迟和高可靠性的特点，逐渐成为主流存储设备。其中，NVMe（Non-Volatile Memory Express）协议针对闪存存储特性进行了优化设计[3]，通过多队列并行访问机制和高效的命令处理方式，大幅提升了存储系统的I/O性能，使SSD的性能能够充分发挥。随着数据中心规模的不断扩大，单节点本地存储已经难以满足大规模数据处理的需求，存储资源逐渐向网络化和集中化方向发展。 NVMe over Fa

NVME-oF IP 设计2 ：设计之前的调研！随着NVMe协议逐渐成为高性能固态存储设备的主流接口标准，基于NVMe SSD的本地存储系统在带宽和延迟方面已能够满足现代数据中心与高性能计算应用的需求。在此基础上，研究重点逐渐从本地存储性能优化转向如何通过高速网络实现远程NVMe设备访问，从而构建高性能网络存储系统。NVMe-over-Fabrics（NVMe-oF）通过在高速网络上传输NVMe命令，使远程NVMe设备能够以接近本地NVMe的性能被访问，因此成为当前高性能网络存储的重要技术路线。

深入解析 RDMA 中的 Address Handler (AH) 缓存：AWS EFA 驱动的硬件演进与软件复用艺术在高性能计算（HPC）和大规模 AI 分布式训练（如多机多卡训练）的底层网络中，RDMA（远程直接内存访问）技术扮演着至关重要的角色。而在 RDMA 的不可靠数据报（UD）或类似的数据报通信模式中，Address Handler（地址句柄，简称 AH）是一个绕不开的核心概念。

GPU Direct RDMA调研GPUDirect RDMA是GPU direct技术体系的一部分，用于跨机或者跨机柜级别的GPU互联通信的加速。GPUDirect RDMA主要是利用PCIe p2p的技术将GPU的内存暴露给RDMA网络设备进行data transfer，将传统通过系统内存的RDMA操作bypass掉，避免GPU mem和host mem之间的mem copy。

【RDMA】CST=Consistency at Target（目标端一致性操作）说人话：CST 就是给远端数据做个收尾确认本地显卡往别的显卡内存里发数据、做修改，数据走网卡、线路传输，不会立马稳稳落到对方显存里，还可能先后顺序乱掉。

小辰记事本

从零读懂网卡内部架构：一条数据包的硬件之旅前面的文章我们拆解了WQE/CQE的格式、MR注册时MTT/MPT的构建、RoCEv2数据包的逐层封装，也分析了PFC和ECN如何协同工作。这些模块各司其职，但它们是如何拼成一块完整的网卡硬件的？用户态下发的一个WQE，最终怎么变成线缆上的比特，反过来收到的包又怎么变成内存里的数据？

小辰记事本

从零读懂RoCEv2数据包构造：从WQE到线缆上的完整旅程RoCEv2将InfiniBand的传输层报文封装在UDP/IP中，使得RDMA可以跨路由、跑在标准以太网上。但一个完整的RoCEv2数据包是如何从WQE一步步加上头部、填上校验，最终变成线缆上的比特流的？这篇文章从硬件视角，按构造顺序逐层拆解。

小辰记事本

RDMA：AI算力集群的“网络命脉”RDMA几乎已经成为AI基础设施的“事实标准“，当AI大模型参数突破万亿甚至十万亿级别，单台服务器早已无法独立完成训练。万卡级算力集群的算力虽然空前强大，但网络的通讯耗时占比已达到30%~50%。换句话说，如果网络不畅，再强的算力也得“等数据”。要理解RDMA在其中的角色，就需要先厘清两项根本性的技术创新。

小辰记事本

从零读懂RDMA UC Write：单向推送，不求回音前面我们聊了RC（可靠连接）和UD（不可靠数据报）。RC什么都好——可靠、保序、能拆长消息——但QP上下文太重，硬件成本高。UD什么都省——无连接、单包、不确认——但代价是不可靠，丢包了上层自己兜底。

志凌海纳SmartX

详解超融合如何让RDMA跨网卡高可用，让高性能业务更可靠金融低延迟交易、核心数据库等高性能业务经常使用 RDMA 网络满足极低延迟需求。而针对 RDMA 网络的可靠性，传统方案往往仅提供网口级冗余保护，若发生网卡硬件故障，核心业务系统仍面临宕机风险。

RDMA设计67: RDMA设计总结本系列主要是结合RDMA项目需求展开。通过分析工作在 FPGA 上的基于 RoCE v2 协议的高速数据传输系统，展开其主要功能仿真验证和板级测试，最后在实际应用环境中对性能进行了测试。

RDMA设计63：怎么进行网络嗅探功能测试本博文主要交流设计思路，在本博客已给出相关博文约190篇，希望对初学者有用。注意这里只是抛砖引玉，切莫认为参考这就可以完成商用IP 设计。

RDMA设计64：数据吞吐量性能测试分析本博文主要交流设计思路，在本博客已给出相关博文约190篇，希望对初学者有用。注意这里只是抛砖引玉，切莫认为参考这就可以完成商用IP 设计。

RDMA设计62：RoCE v2 原语及单/双边语义功能测试2本博文主要交流设计思路，在本博客已给出相关博文约190篇，希望对初学者有用。注意这里只是抛砖引玉，切莫认为参考这就可以完成商用IP设计。

NVIDIA NCCL 源码学习（十七）- LL和LL128协议之前提到nccl有多种协议，并且主要以simple协议为例介绍nccl的流程，本节我们具体看下simple之外的LL和LL128协议，LL是low latency的缩写，表示低延迟。协议在这里是指当前rank发送数据给peer的时候，peer如何知道数据已经可见，simple的做法是当前rank先发data，再执行fence_sys，最后发flag，peer轮询flag，当轮询到flag的时候就可以知道data已经可见，但是fence_sys是个耗时的操作，nccl通过拆分出单独的warp执行fence

RDMA设计53：构建RoCE v2 高速数据传输系统板级测试平台2完成 HDL 工程及 Block Design 设计后，进行综合与实现， RoCE v2 高速数据传输系统的资源占用如表1 所示。从资源占用表中可以看出，基于本IP实现的 RoCE v2高速数据传输系统资源占用率低，更容易被集成到实际应用环境中。

RDMA设计50: 如何验证网络嗅探功能？网络嗅探的主要功能包括 ARP 接收发送及 ICMP 接收发送，RDMA技术允许主机直接访问远程主机的内存，无需CPU介入，因此其流量不经过操作系统内核协议栈。这种设计提升了性能，但也使得嗅探变得复杂：