rdma

caodongwang12 天前
gpu·rdma·gdr
GPU Direct RDMA调研GPUDirect RDMA是GPU direct技术体系的一部分,用于跨机或者跨机柜级别的GPU互联通信的加速。GPUDirect RDMA主要是利用PCIe p2p的技术将GPU的内存暴露给RDMA网络设备进行data transfer,将传统通过系统内存的RDMA操作bypass掉,避免GPU mem和host mem之间的mem copy。
bandaoyu17 天前
rdma
【RDMA】CST=Consistency at Target(目标端一致性操作)说人话:CST 就是给远端数据做个收尾确认本地显卡往别的显卡内存里发数据、做修改,数据走网卡、线路传输,不会立马稳稳落到对方显存里,还可能先后顺序乱掉。
小辰记事本18 天前
网络·网络协议·架构·rdma
从零读懂网卡内部架构:一条数据包的硬件之旅前面的文章我们拆解了WQE/CQE的格式、MR注册时MTT/MPT的构建、RoCEv2数据包的逐层封装,也分析了PFC和ECN如何协同工作。这些模块各司其职,但它们是如何拼成一块完整的网卡硬件的?用户态下发的一个WQE,最终怎么变成线缆上的比特,反过来收到的包又怎么变成内存里的数据?
小辰记事本18 天前
服务器·网络·网络协议·rdma
从零读懂RoCEv2数据包构造:从WQE到线缆上的完整旅程RoCEv2将InfiniBand的传输层报文封装在UDP/IP中,使得RDMA可以跨路由、跑在标准以太网上。但一个完整的RoCEv2数据包是如何从WQE一步步加上头部、填上校验,最终变成线缆上的比特流的?这篇文章从硬件视角,按构造顺序逐层拆解。
小辰记事本1 个月前
网络·人工智能·网络协议·rdma
RDMA:AI算力集群的“网络命脉”RDMA几乎已经成为AI基础设施的“事实标准“,当AI大模型参数突破万亿甚至十万亿级别,单台服务器早已无法独立完成训练。万卡级算力集群的算力虽然空前强大,但网络的通讯耗时占比已达到30%~50%。换句话说,如果网络不畅,再强的算力也得“等数据”。要理解RDMA在其中的角色,就需要先厘清两项根本性的技术创新。
小辰记事本1 个月前
网络·网络协议·rdma
从零读懂RDMA UC Write:单向推送,不求回音前面我们聊了RC(可靠连接)和UD(不可靠数据报)。RC什么都好——可靠、保序、能拆长消息——但QP上下文太重,硬件成本高。UD什么都省——无连接、单包、不确认——但代价是不可靠,丢包了上层自己兜底。
志凌海纳SmartX2 个月前
高可用·超融合·rdma·smartx
详解超融合如何让RDMA跨网卡高可用,让高性能业务更可靠金融低延迟交易、核心数据库等高性能业务经常使用 RDMA 网络满足极低延迟需求。而针对 RDMA 网络的可靠性,传统方案往往仅提供网口级冗余保护,若发生网卡硬件故障,核心业务系统仍面临宕机风险。
tiantianuser2 个月前
功能测试·rdma·高速传输·cmac·roce v2
RDMA设计67: RDMA设计总结本系列主要是结合RDMA项目需求展开。 通过分析工作在 FPGA 上的基于 RoCE v2 协议的高速数据传输系统,展开其主要功能仿真验证和板级测试,最后在实际应用环境中对性能进行 了测试。
tiantianuser2 个月前
网络·fpga开发·rdma·高速传输·cmac·roce v2
RDMA设计63:怎么进行网络嗅探功能测试本博文主要交流设计思路,在本博客已给出相关博文约190篇,希望对初学者有用。 注意这里只是抛砖引玉,切莫认为参考这就可以完成商用IP 设计。
tiantianuser2 个月前
网络·fpga开发·rdma·fpga设计·高速传输·roce v2
RDMA设计64:数据吞吐量性能测试分析本博文主要交流设计思路,在本博客已给出相关博文约190篇,希望对初学者有用。 注意这里只是抛砖引玉,切莫认为参考这就可以完成商用IP 设计。
tiantianuser2 个月前
功能测试·fpga开发·rdma·高速传输·cmac·roce v2
RDMA设计62:RoCE v2 原语及单/双边语义功能测试2本博文主要交流设计思路,在本博客已给出相关博文约190篇,希望对初学者有用。 注意这里只是抛砖引玉,切莫认为参考这就可以完成商用IP设计。
KIDGINBROOK3 个月前
cuda·rdma·nccl
NVIDIA NCCL 源码学习(十七)- LL和LL128协议之前提到nccl有多种协议,并且主要以simple协议为例介绍nccl的流程,本节我们具体看下simple之外的LL和LL128协议,LL是low latency的缩写,表示低延迟。 协议在这里是指当前rank发送数据给peer的时候,peer如何知道数据已经可见,simple的做法是当前rank先发data,再执行fence_sys,最后发flag,peer轮询flag,当轮询到flag的时候就可以知道data已经可见,但是fence_sys是个耗时的操作,nccl通过拆分出单独的warp执行fence
tiantianuser3 个月前
fpga开发·rdma·高速传输·cmac·roce v2
RDMA设计53:构建RoCE v2 高速数据传输系统板级测试平台2完成 HDL 工程及 Block Design 设计后,进行综合与实现, RoCE v2 高速数据传输系统的资源占用如表1 所示。从资源占用表中可以看出,基于本IP实现的 RoCE v2高速数据传输系统资源占用率低,更容易被集成到实际应用环境中。
tiantianuser3 个月前
网络·fpga开发·rdma·高速传输·cmac·roce v2
RDMA设计50: 如何验证网络嗅探功能?网络嗅探的主要功能包括 ARP 接收发送及 ICMP 接收发送,RDMA技术允许主机直接访问远程主机的内存,无需CPU介入,因此其流量不经过操作系统内核协议栈。这种设计提升了性能,但也使得嗅探变得复杂:
tiantianuser3 个月前
fpga开发·rdma·高速传输·cmac·roce v2
RDMA设计52:构建RoCE v2 高速数据传输系统板级测试平台前面分享如何进行仿真,下面介绍硬件平台上验证其功能及性能。 RoCE v2 高速数据传输系统基于Xilinx integrated 100G Ethernet Subsystem 进行搭建,其常用版本为 UltraScale+ CMAC集成块,考虑低成本方案,这里使用基于 XCZU47DR FPGA 的开发板进行硬件平台搭建及测试。远程主机端则使用 迈洛斯(现英伟达) CX455-A 网卡,其支持 100Gbps IB/ETH 网络数据传输。
星融元asterfusion4 个月前
运维·rdma·会话追踪
打破“黑盒”:RoCE小工具为RDMA网络运维带来可视化曙光随着 AI 训练、推理及 NVMe-oF 存储等业务的爆发式增长,基于 RoCEv2 的 RDMA 网络已成为现代数据中心的核心基础设施 。然而,性能与运维难度往往成正比。长期以来,RDMA 通信在网络中如同处于一个“黑盒”状态,业务侧工程师难以获悉真实的转发路径 。
业余程序员plus4 个月前
rdma·infiniband·bth·psn·fecn·becn·rdma语义
RDMA-InfiniBand基本传输头BTH分析(三)IBA传输层的基本传输头(Base Transport Header)定义了InfiniBand的事务类型,同时也实现了报文确认与重传功能,是IBA协议的核心部分。RoCE、RoCEv2、veRoCE、iWARP等RDMA改进协议,都是通过保留BTH来兼容RDMA协议。
业余程序员plus4 个月前
rdma·infiniband·lrh·bth·rdeth·reth·atomiceth
RDMA-InfiniBand包格式分析(二)包(Packets)是IBA(InfiniBand Architecture)网络传输的最小单元。消息(Message,即数据)被分割成可以传输的段,然后组装成包,接着发送到IBA网络上,经过路由,最终到达目的地。数据包有如下的特性:
业余程序员plus4 个月前
rdma·qp·infiniband·roce·wqe·cqe·iba
RDMA-InfiniBand总线架构简介(一)IBA(InfiniBand Architecture)定义了一种系统区域网络(System Area Network,SAN),用于连接多个独立的处理器平台(即主机处理器节点)、I/O平台及I/O设备。IBA SAN是一种通信与管理基础设施,可为一个或多个计算机系统同时支持I/O和处理器间通信(IPC)。一个IBA系统的规模可小至仅含单个处理器和少量I/O设备的小型服务器,也可大至包含数百个处理器和数千个I/O设备的大规模并行超级计算机集群。此外,IBA架构对IP协议很友好,使其能够桥接到互联网、内联网
三点水-here4 个月前
分布式·rdma·nccl·moe·流水线并行·张量并行·专家并行
04 - 分布式大模型推理实战:TP/PP/EP并行策略深度解析本文是《大模型推理框架深度解析》系列的第四篇,详解张量并行、流水线并行与专家并行的原理与配置。当你的模型从7B扩展到70B、405B,单卡显存已经无法满足需求时,分布式推理成为必然选择。但面对TP、PP、EP等各种并行策略,很多开发者感到困惑: