技术栈
nccl
d1z888
11 天前
gpu
·
nvidia
·
nccl
NCCL 测试完全指南:从概念到性能调优
📅 版本:2026-03-30 🎯 目标:全面掌握 NCCL 测试方法,从入门到精通 📚 NCCL 版本:基于 NCCL 2.29.7 ⏱️ 预计阅读时间:3-5 小时 💻 适用对象:AI 工程师、HPC 开发者、系统管理员
int WINGsssss
13 天前
nccl
·
ai infra
·
集合通信库
·
我爱吃烤肉
NCCL工作流程分析&&NCCL源码解读
本文章是笔者在学习NCCL源码时候的感悟和理解,由于源码实在抽象,所以笔者尽量用更直白通俗的语言表达自己的理解。若有错误,望各位大神多多批评指教!该文章会不断更新修改,一些细枝末节也将会不断补充,新的文章未来也会采用链接形式纳入本文章中。
KIDGINBROOK
17 天前
cuda
·
rdma
·
nccl
NVIDIA NCCL 源码学习(十七)- LL和LL128协议
之前提到nccl有多种协议,并且主要以simple协议为例介绍nccl的流程,本节我们具体看下simple之外的LL和LL128协议,LL是low latency的缩写,表示低延迟。 协议在这里是指当前rank发送数据给peer的时候,peer如何知道数据已经可见,simple的做法是当前rank先发data,再执行fence_sys,最后发flag,peer轮询flag,当轮询到flag的时候就可以知道data已经可见,但是fence_sys是个耗时的操作,nccl通过拆分出单独的warp执行fence
bandaoyu
1 个月前
nccl
·
rccl
·
nvshmem
【NVSHMEM】PCIe 距离类型(PIX,PXB,PHB,NOD,SYS)和判断
PCIe 距离类型(从优到差):PATH_PIX (0): 相同设备,最优PATH_PXB (1): 通过 PCIe 交换机连接
三点水-here
2 个月前
分布式
·
rdma
·
nccl
·
moe
·
流水线并行
·
张量并行
·
专家并行
04 - 分布式大模型推理实战:TP/PP/EP并行策略深度解析
本文是《大模型推理框架深度解析》系列的第四篇,详解张量并行、流水线并行与专家并行的原理与配置。当你的模型从7B扩展到70B、405B,单卡显存已经无法满足需求时,分布式推理成为必然选择。但面对TP、PP、EP等各种并行策略,很多开发者感到困惑:
容沁风
3 个月前
nccl
·
v100
·
lk_llama.cpp
lk_llama.cpp启用nccl
要下载对应cuda toolkit版本的nccl,到nvidia官方下载 我用的GPU是v100显卡,只能下载legacy的。
predawnlove
3 个月前
nccl
·
通信库
【NCCL】8 PAT AllGather 设备端实现详解3
PatAGAlgorithm::getNextOp() 函数的算法规划是 PAT (Pipelined Allgather Tree) 算法的核心调度器。
predawnlove
4 个月前
算法
·
gpu
·
nccl
【NCCL】4 AllGather-PAT算法
根据前三篇,可以得知:如果仅想要查看一个算法和其余算法的不同点,着重入手的地方为如下三处未完,不一定有续
predawnlove
4 个月前
gpu
·
nccl
【NCCL】5 GPU 间链路 Preconnect 机制
详细分析 NCCL 中 GPU 间链路的 preconnect(预连接)机制。这是一个关键的优化,用于在实际通信前建立好所有必要的连接。
predawnlove
4 个月前
gpu
·
nccl
·
通信库
【NCCL】3. ncclPrepareTasks 到 scheduleCollTasksToPlan 的衔接机制
Commit: 59242d7cncclPrepareTasks 之后如何衔接到 scheduleCollTasksToPlan 的完整流程。关键在于 ncclLaunchPrepare 函数。
Luchang-Li
7 个月前
pytorch
·
python
·
nccl
sglang pytorch NCCL hang分析
sglang部署出现卡死现象,通过cuda-gdb分析发现是NCCL卡死但是默认没有打印调用栈,通过设置如下环境变量,打印NCCL错误信息和算子调用栈:
小马敲马
8 个月前
开发语言
·
c++
·
人工智能
·
算法
·
性能优化
·
nccl
[4.2-2] NCCL新版本的register如何实现的?
在enqueue.cc内的调用是:会走到sendrecv_reg.cc,这里的 ncclRegisterP2pIpcBuffer 实现:
caodongwang
1 年前
p2p
·
rdma
·
nccl
·
transport
【NCCL】transport建立(一)
NCCL transport建立主要在ncclTransportP2pSetup函数中实现。先简单概括一下ncclTransportP2pSetup函数做了哪些事,方便理解代码流程。 recvpeer 表示本卡作为接收端的对端,sendpeer 表示本卡作为发送端的对端。假设8个rank全连接,第一次循环时,rank0的recvpeer就是7,rank0的sendpeer就是1,第二次循环,rank0的recvpeer就是6,rank1的sendpeer就是2,以此类推。 ncclTransportP2p
跑步去兜风
1 年前
服务器
·
p2p
·
nccl
·
shm
·
rccl
RCCL/NCCL中的Transports方式选择:P2P or SHM or NET
本篇文章主要总结以下在传输路径方式选择的时候,选择每一种方式应该满足的条件和优先度。本文初步总结,之后还会进行更新,欢迎大家补充
Eloudy
2 年前
nvlink
·
nccl
NCCL 中的一些辅助debug 知识点
ncclLaunchKernel cuLaunchKernelExncclStrongStreamLaunchKernel cudaLaunchKernel
Hi20240217
2 年前
pytorch
·
python
·
性能优化
·
分布式训练
·
nccl
·
融合算子
将数据切分成N份,采用NCCL异步通信,让all_gather+matmul尽量Overlap
本文演示了如何将数据切分成N份,采用NCCL异步通信,让all_gather+matmul尽量Overlap
Pretend ^^
2 年前
pytorch
·
分布式
·
gpu算力
·
nccl
5. PyTorch+NCCL源码编译
从源码编译PyTorch和NCCL,可以实现对NCCL源码进行修改以适应特定需求,并应用于实际的分布式训练中,本文基于torch 2.2.1和nccl 2.19.3描述了一个大致过程,并验证了源码更改的有效性。
内卷焦虑人士
2 年前
gpu算力
·
nvidia
·
authenticator
·
nccl
NVIDIA-NCCL下载资源分享,跳过Authenticator验证
现在NVIDIA登录需要Authenticator验证,很多人会卡在这里导致无法下载后续的资源 如果有的话,在最下面选择已验证ID,扫描QR码,回到主页就能看到多出了一个NVIDIA的选项栏,输入验证码即可
Pretend ^^
2 年前
网络
·
分布式
·
深度学习
·
nccl
·
ib
·
roce
2. 多机多卡运行nccl-tests对比分析
NCCL(NVIDIA Collective Communications Library)是NVIDIA提供的一套用于GPU加速的通信库,主要用于在多个GPU之间进行数据传输和通信。它被设计为在异构计算环境中(包括NVIDIA GPU和CPU)高效地执行数据并行和模型并行。
canmoumou
2 年前
人工智能
·
mpi
·
nccl
【分布式通信】NPKit,NCCL的Profiling工具
NPKit (Networking Profiling Kit) is a profiling framework designed for popular collective communication libraries (CCLs), including Microsoft MSCCL, NVIDIA NCCL and AMD RCCL. It enables users to insert customized profiling events into different CCL compon