技术栈

NCCL 中的一些辅助debug 知识点

Eloudy2024-07-08 19:45

1,调试nccl 启动kernel的方法

ncclLaunchKernel

cuLaunchKernelEx

ncclStrongStreamLaunchKernel

cudaLaunchKernel

ncclLaunchOneRank

cudaLaunchKernel

在 nccl lib 中,不存在使用<<<grid, block,,>>> 这种类似方式启动kernel的情景。

gdb ./example_test

(gdb) b ncclLaunchKernel

(gdb) c

(gdb) backtrace

2,

未完待续。。。

上一篇:phpcms 升级php8.3.8
下一篇:迭代器模式在金融业务中的应用及其框架实现
相关推荐
caodongwang
23 天前
【NCCL】transport建立(一)
p2p·rdma·nccl·transport
跑步去兜风
5 个月前
RCCL/NCCL中的Transports方式选择:P2P or SHM or NET
服务器·p2p·nccl·shm·rccl
Hi20240217
1 年前
将数据切分成N份,采用NCCL异步通信,让all_gather+matmul尽量Overlap
pytorch·python·性能优化·分布式训练·nccl·融合算子
Pretend ^^
1 年前
5. PyTorch+NCCL源码编译
pytorch·分布式·gpu算力·nccl
内卷焦虑人士
1 年前
NVIDIA-NCCL下载资源分享,跳过Authenticator验证
gpu算力·nvidia·authenticator·nccl
Pretend ^^
1 年前
2. 多机多卡运行nccl-tests对比分析
网络·分布式·深度学习·nccl·ib·roce
canmoumou
1 年前
【分布式通信】NPKit,NCCL的Profiling工具
人工智能·mpi·nccl
Hi20240217
1 年前
NCCL集合通信算子DEMO及性能测试
分布式·python·nccl
Happy_Enger
1 年前
NCCL源码解析: P2P 连接的建立
nvidia·cuda·nccl
热门推荐
01KGG转MP3工具|非KGM文件|解密音频02YOLOv8入门 | 重要性能衡量指标、训练结果评价及分析及影响mAP的因素【发论文关注的指标】03从零安装 LLaMA-Factory 微调 Qwen 大模型成功及所有的坑04【SpeedAI科研小助手】2分钟极速解决知网维普重复率、AIGC率过高,一键全文降!文件格式不变,公式都保留的!05DeepSeek各版本说明与优缺点分析06Coze扣子平台完整体验和实践(附国内和国际版对比)07Ubuntu24.04安装中文输入法08YOLOv5改进 | 添加CA注意力机制 + 增加预测层 + 更换损失函数之GIoU09苍穹外卖面试总结10第一届 “帕鲁杯“ writeup