NCCL 中的一些辅助debug 知识点

1,调试nccl 启动kernel的方法

ncclLaunchKernel

cuLaunchKernelEx

ncclStrongStreamLaunchKernel

cudaLaunchKernel

ncclLaunchOneRank

cudaLaunchKernel

在 nccl lib 中,不存在使用<<<grid, block,,>>> 这种类似方式启动kernel的情景。

gdb ./example_test

(gdb) b ncclLaunchKernel

(gdb) c

(gdb) backtrace

2,

未完待续。。。

相关推荐
三点水-here14 天前
04 - 分布式大模型推理实战:TP/PP/EP并行策略深度解析
分布式·rdma·nccl·moe·流水线并行·张量并行·专家并行
容沁风1 个月前
lk_llama.cpp启用nccl
nccl·v100·lk_llama.cpp
predawnlove2 个月前
【NCCL】8 PAT AllGather 设备端实现详解3
nccl·通信库
predawnlove2 个月前
【NCCL】4 AllGather-PAT算法
算法·gpu·nccl
predawnlove2 个月前
【NCCL】5 GPU 间链路 Preconnect 机制
gpu·nccl
predawnlove2 个月前
【NCCL】3. ncclPrepareTasks 到 scheduleCollTasksToPlan 的衔接机制
gpu·nccl·通信库
七宝大爷4 个月前
多GPU并行计算互联架构解析:NVLink的诞生与SLI CrossFire的落幕
架构·nvlink·sli
Luchang-Li6 个月前
sglang pytorch NCCL hang分析
pytorch·python·nccl
小马敲马7 个月前
[4.2-2] NCCL新版本的register如何实现的?
开发语言·c++·人工智能·算法·性能优化·nccl
caodongwang10 个月前
【NCCL】transport建立(一)
p2p·rdma·nccl·transport