nccl

d1z88811 天前
gpu·nvidia·nccl
NCCL 测试完全指南:从概念到性能调优📅 版本:2026-03-30 🎯 目标:全面掌握 NCCL 测试方法,从入门到精通 📚 NCCL 版本:基于 NCCL 2.29.7 ⏱️ 预计阅读时间:3-5 小时 💻 适用对象:AI 工程师、HPC 开发者、系统管理员
int WINGsssss13 天前
nccl·ai infra·集合通信库·我爱吃烤肉
NCCL工作流程分析&&NCCL源码解读本文章是笔者在学习NCCL源码时候的感悟和理解,由于源码实在抽象,所以笔者尽量用更直白通俗的语言表达自己的理解。若有错误,望各位大神多多批评指教!该文章会不断更新修改,一些细枝末节也将会不断补充,新的文章未来也会采用链接形式纳入本文章中。
KIDGINBROOK17 天前
cuda·rdma·nccl
NVIDIA NCCL 源码学习(十七)- LL和LL128协议之前提到nccl有多种协议,并且主要以simple协议为例介绍nccl的流程,本节我们具体看下simple之外的LL和LL128协议,LL是low latency的缩写,表示低延迟。 协议在这里是指当前rank发送数据给peer的时候,peer如何知道数据已经可见,simple的做法是当前rank先发data,再执行fence_sys,最后发flag,peer轮询flag,当轮询到flag的时候就可以知道data已经可见,但是fence_sys是个耗时的操作,nccl通过拆分出单独的warp执行fence
bandaoyu1 个月前
nccl·rccl·nvshmem
【NVSHMEM】PCIe 距离类型(PIX,PXB,PHB,NOD,SYS)和判断PCIe 距离类型(从优到差):PATH_PIX (0): 相同设备,最优PATH_PXB (1): 通过 PCIe 交换机连接
三点水-here2 个月前
分布式·rdma·nccl·moe·流水线并行·张量并行·专家并行
04 - 分布式大模型推理实战:TP/PP/EP并行策略深度解析本文是《大模型推理框架深度解析》系列的第四篇,详解张量并行、流水线并行与专家并行的原理与配置。当你的模型从7B扩展到70B、405B,单卡显存已经无法满足需求时,分布式推理成为必然选择。但面对TP、PP、EP等各种并行策略,很多开发者感到困惑:
容沁风3 个月前
nccl·v100·lk_llama.cpp
lk_llama.cpp启用nccl要下载对应cuda toolkit版本的nccl,到nvidia官方下载 我用的GPU是v100显卡,只能下载legacy的。
predawnlove3 个月前
nccl·通信库
【NCCL】8 PAT AllGather 设备端实现详解3PatAGAlgorithm::getNextOp() 函数的算法规划是 PAT (Pipelined Allgather Tree) 算法的核心调度器。
predawnlove4 个月前
算法·gpu·nccl
【NCCL】4 AllGather-PAT算法根据前三篇,可以得知:如果仅想要查看一个算法和其余算法的不同点,着重入手的地方为如下三处未完,不一定有续
predawnlove4 个月前
gpu·nccl
【NCCL】5 GPU 间链路 Preconnect 机制详细分析 NCCL 中 GPU 间链路的 preconnect(预连接)机制。这是一个关键的优化,用于在实际通信前建立好所有必要的连接。
predawnlove4 个月前
gpu·nccl·通信库
【NCCL】3. ncclPrepareTasks 到 scheduleCollTasksToPlan 的衔接机制Commit: 59242d7cncclPrepareTasks 之后如何衔接到 scheduleCollTasksToPlan 的完整流程。关键在于 ncclLaunchPrepare 函数。
Luchang-Li7 个月前
pytorch·python·nccl
sglang pytorch NCCL hang分析sglang部署出现卡死现象,通过cuda-gdb分析发现是NCCL卡死但是默认没有打印调用栈,通过设置如下环境变量,打印NCCL错误信息和算子调用栈:
小马敲马8 个月前
开发语言·c++·人工智能·算法·性能优化·nccl
[4.2-2] NCCL新版本的register如何实现的?在enqueue.cc内的调用是:会走到sendrecv_reg.cc,这里的 ncclRegisterP2pIpcBuffer 实现:
caodongwang1 年前
p2p·rdma·nccl·transport
【NCCL】transport建立(一)NCCL transport建立主要在ncclTransportP2pSetup函数中实现。先简单概括一下ncclTransportP2pSetup函数做了哪些事,方便理解代码流程。 recvpeer 表示本卡作为接收端的对端,sendpeer 表示本卡作为发送端的对端。假设8个rank全连接,第一次循环时,rank0的recvpeer就是7,rank0的sendpeer就是1,第二次循环,rank0的recvpeer就是6,rank1的sendpeer就是2,以此类推。 ncclTransportP2p
跑步去兜风1 年前
服务器·p2p·nccl·shm·rccl
RCCL/NCCL中的Transports方式选择:P2P or SHM or NET本篇文章主要总结以下在传输路径方式选择的时候,选择每一种方式应该满足的条件和优先度。本文初步总结,之后还会进行更新,欢迎大家补充
Eloudy2 年前
nvlink·nccl
NCCL 中的一些辅助debug 知识点ncclLaunchKernel cuLaunchKernelExncclStrongStreamLaunchKernel cudaLaunchKernel
Hi202402172 年前
pytorch·python·性能优化·分布式训练·nccl·融合算子
将数据切分成N份,采用NCCL异步通信,让all_gather+matmul尽量Overlap本文演示了如何将数据切分成N份,采用NCCL异步通信,让all_gather+matmul尽量Overlap
Pretend ^^2 年前
pytorch·分布式·gpu算力·nccl
5. PyTorch+NCCL源码编译从源码编译PyTorch和NCCL,可以实现对NCCL源码进行修改以适应特定需求,并应用于实际的分布式训练中,本文基于torch 2.2.1和nccl 2.19.3描述了一个大致过程,并验证了源码更改的有效性。
内卷焦虑人士2 年前
gpu算力·nvidia·authenticator·nccl
NVIDIA-NCCL下载资源分享,跳过Authenticator验证现在NVIDIA登录需要Authenticator验证,很多人会卡在这里导致无法下载后续的资源 如果有的话,在最下面选择已验证ID,扫描QR码,回到主页就能看到多出了一个NVIDIA的选项栏,输入验证码即可
Pretend ^^2 年前
网络·分布式·深度学习·nccl·ib·roce
2. 多机多卡运行nccl-tests对比分析NCCL(NVIDIA Collective Communications Library)是NVIDIA提供的一套用于GPU加速的通信库,主要用于在多个GPU之间进行数据传输和通信。它被设计为在异构计算环境中(包括NVIDIA GPU和CPU)高效地执行数据并行和模型并行。
canmoumou2 年前
人工智能·mpi·nccl
【分布式通信】NPKit,NCCL的Profiling工具NPKit (Networking Profiling Kit) is a profiling framework designed for popular collective communication libraries (CCLs), including Microsoft MSCCL, NVIDIA NCCL and AMD RCCL. It enables users to insert customized profiling events into different CCL compon