libfabric与UEC
相关链接:
PCIE(11):一文详解DoE
PCIE(12):一文详解RAS
PCIE(13):浅析PCIE的复位
PCIE(14):深入详解PCIE的复位
PCIE(15):浅析PCIE 功耗管理
PCIE(16):浅析"序"的概念
RDMA 逐包喷洒(Packet Spraying)
Libfabric
收藏备查!精要解读超以太网联盟(UEC)1.0 规范(2025Q2)
超以太网联盟(UEC):推动以太网革新,赋能 AI 与 HPC 领域
驾驭3200Gbps网络(0): 导言
驾驭3200Gbps网络(1): RDMA和EFA
驾驭3200Gbps网络(2): 高性能网络系统设计哲学
驾驭3200Gbps网络(3): libfabric
驾驭3200Gbps网络(4): 单向接收发送
驾驭3200Gbps网络(5): 双向接收发送
驾驭3200Gbps网络(6): GPUDirect RDMA WRITE
驾驭3200Gbps网络(7): 操作队列及带宽测试
驾驭3200Gbps网络(8): 系统拓扑
驾驭3200Gbps网络(9): 使用32张网卡
驾驭3200Gbps网络(10): 测试前预热
驾驭3200Gbps网络(11): 多线程
驾驭3200Gbps网络(12): 绑定CPU核心
驾驭3200Gbps网络(13): 状态分片
驾驭3200Gbps网络(14): 批量提交操作
驾驭3200Gbps网络(15): 惰性提交操作
GPU P2P (Peer-to-Peer) 设计
GPU PCIe P2P 概述(二)
GPU NVLink P2P技术(三)
Linux PCIe P2P DMA 深度剖析:机制、流程与原理
GPU NVLink P2P 通信机制、流程与原理全解析
NCCL架构深度剖析
NCCL GPU Direct RDMA (GDR)分析
GPU PCIe Shared Memory (一)
NCCL 通信kernel模板实例化流程
NCCL RDMA Read/Write/Atomic 通信流程
NCCL 硬件拓扑最短路径算法详解
NCCL 是如何建立 RDMA 连接的?一次完整握手过程拆解
GPU 拓扑是如何影响 RDMA 性能的?
一次 RDMA Write,从 GPU 到 GPU 会经过多少个 DMA?
一文彻底理解NCCL传输层的各种通信方式
GPU集群无损网络RoCEv2简要指南
PCIe通信组件、链路训练与链路均衡过程
GPUDirect RDMA技术详解
算力网络RoCEv2协议DCQCN解析(2)PFC队列行为
RoCE vs InfiniBand(2)塞控制、QoS及ECMP对比
GPU集群NCCL Test结果解读
GPUDirect Storage(GDS)技术解析
GPU拓扑与NUMA nvidia-smi topo详解
阿里云下一代AI RDMA网络Stellar论文解析4
一文彻底理解NCCL传输层的各种通信方式
ROCE V2智算网络常见问题:技术解析与应对策略
SemiAnalysis:英伟达Vera Rubin-实现"极致协同设计(Extreme Co-Design)"
RDMA介绍及其在NCCL中的使用
NCCL 原理
PCIe SR-IOV (一)架构概述
[SIGCOMM 2025] 阿里云RDMA最新技术Stellar ------ 核心设计
Linux 高性能网络调优白皮书(NUMA / IRQ / softirq / RSS 全景)
揭秘NCCL:突破多GPU通信瓶颈的关键技术
RDMA 乱序之痛:大模型时代,除了 DDP 我们还需突破哪些难关?
从PyTorch到RDMA网卡:自顶向下(一)训练为什么卡?
从PyTorch到RDMA网卡:自顶向下(二)NCCL怎么组织通信
从PyTorch到RDMA网卡:自顶向下(三)Proxy 如何把 GPU 数据交给网卡