sglang pytorch NCCL hang分析

sglang部署出现卡死现象,通过cuda-gdb分析发现是NCCL卡死

cpp 复制代码
(cuda-gdb) info cuda kernels
  Kernel Parent Dev Grid Status                             SMs Mask  GridDim  BlockDim Invocation
*      0      -   1 3424489 Active 0x0000000000000000000000000000ff00ff (16,1,1) (544,1,1) ncclDevKernel_ReduceScatter_Sum_bf16_RING_LL()

但是默认没有打印调用栈,通过设置如下环境变量,打印NCCL错误信息和算子调用栈:

bash 复制代码
export NCCL_DEBUG=INFO

export TORCH_NCCL_TRACE_BUFFER_SIZE=40960
export TORCH_NCCL_TRACE_CPP_STACK=true
export TORCH_NCCL_DUMP_ON_TIMEOUT=true
相关推荐
qunaa01013 分钟前
基于YOLO11-CSP-EDLAN的软夹持器夹持状态检测方法研究
python
SunnyDays10114 分钟前
Python 文本转 PDF 完整指南:从字符串与 TXT 文件到专业 PDF 文档
python·txt转pdf·文本转pdf·文本文件转pdf
C系语言5 分钟前
安装Python版本opencv命令
开发语言·python·opencv
FJW0208146 分钟前
Python排序算法
python·算法·排序算法
pulinzt14 分钟前
【python】第六节anacoda+配置Jupyter notebook
人工智能·python·jupyter
@BangBang20 分钟前
clearml 工具的使用详解
pytorch
逄逄不是胖胖22 分钟前
《动手学深度学习》-49Style_Transfer实现
pytorch·python·深度学习
充值修改昵称2 小时前
数据结构基础:B树磁盘IO优化的数据结构艺术
数据结构·b树·python·算法
C系语言2 小时前
python用pip生成requirements.txt
开发语言·python·pip
william_djj2 小时前
python3.8 提取xlsx表格内容填入单个文件
windows·python·xlsx