技术栈
nccl
Eloudy
4 个月前
nvlink
·
nccl
NCCL 中的一些辅助debug 知识点
ncclLaunchKernel cuLaunchKernelExncclStrongStreamLaunchKernel cudaLaunchKernel
Hi20240217
5 个月前
pytorch
·
python
·
性能优化
·
分布式训练
·
nccl
·
融合算子
将数据切分成N份,采用NCCL异步通信,让all_gather+matmul尽量Overlap
本文演示了如何将数据切分成N份,采用NCCL异步通信,让all_gather+matmul尽量Overlap
Pretend ^^
5 个月前
pytorch
·
分布式
·
gpu算力
·
nccl
5. PyTorch+NCCL源码编译
从源码编译PyTorch和NCCL,可以实现对NCCL源码进行修改以适应特定需求,并应用于实际的分布式训练中,本文基于torch 2.2.1和nccl 2.19.3描述了一个大致过程,并验证了源码更改的有效性。
内卷焦虑人士
5 个月前
gpu算力
·
nvidia
·
authenticator
·
nccl
NVIDIA-NCCL下载资源分享,跳过Authenticator验证
现在NVIDIA登录需要Authenticator验证,很多人会卡在这里导致无法下载后续的资源 如果有的话,在最下面选择已验证ID,扫描QR码,回到主页就能看到多出了一个NVIDIA的选项栏,输入验证码即可
Pretend ^^
7 个月前
网络
·
分布式
·
深度学习
·
nccl
·
ib
·
roce
2. 多机多卡运行nccl-tests对比分析
NCCL(NVIDIA Collective Communications Library)是NVIDIA提供的一套用于GPU加速的通信库,主要用于在多个GPU之间进行数据传输和通信。它被设计为在异构计算环境中(包括NVIDIA GPU和CPU)高效地执行数据并行和模型并行。
canmoumou
7 个月前
人工智能
·
mpi
·
nccl
【分布式通信】NPKit,NCCL的Profiling工具
NPKit (Networking Profiling Kit) is a profiling framework designed for popular collective communication libraries (CCLs), including Microsoft MSCCL, NVIDIA NCCL and AMD RCCL. It enables users to insert customized profiling events into different CCL compon
Hi20240217
7 个月前
分布式
·
python
·
nccl
NCCL集合通信算子DEMO及性能测试
Happy_Enger
9 个月前
nvidia
·
cuda
·
nccl
NCCL源码解析: P2P 连接的建立
NCCL 源码解析总目录我尽量在每个函数之前介绍每个函数的作用,建议先不要投入到函数内部实现,先把函数作用搞清楚,有了整体框架,再回归到细节。
Pretend ^^
9 个月前
服务器
·
人工智能
·
pytorch
·
分布式
·
docker
·
nccl
Pytorch+NCCL源码编译
下载cudnn包之后打开确认已经安装cudnn,除了cudnn_version.h,务必检查同目录下也有cudnn_ops_infer.h文件
canmoumou
1 年前
c++
·
分布式
·
深度学习
·
算法
·
nccl
·
ring
【分布式】小白看Ring算法 - 03
【分布式】NCCL部署与测试 - 01 【分布式】入门级NCCL多机并行实践 - 02 【分布式】小白看Ring算法 - 03 【分布式】大模型分布式训练入门与实践 - 04
KIDGINBROOK
1 年前
gpu
·
cuda
·
nccl
NVIDIA NCCL 源码学习(十一)- ring allreduce
之前的章节里我们看到了nccl send/recv通信的过程,本节我们以ring allreduce为例看下集合通信的过程。整体执行流程和send/recv很像,所以对于相似的流程只做简单介绍,主要介绍ring allreduce自己特有内容。