sglang pytorch NCCL hang分析

sglang部署出现卡死现象,通过cuda-gdb分析发现是NCCL卡死

cpp 复制代码
(cuda-gdb) info cuda kernels
  Kernel Parent Dev Grid Status                             SMs Mask  GridDim  BlockDim Invocation
*      0      -   1 3424489 Active 0x0000000000000000000000000000ff00ff (16,1,1) (544,1,1) ncclDevKernel_ReduceScatter_Sum_bf16_RING_LL()

但是默认没有打印调用栈,通过设置如下环境变量,打印NCCL错误信息和算子调用栈:

bash 复制代码
export NCCL_DEBUG=INFO

export TORCH_NCCL_TRACE_BUFFER_SIZE=40960
export TORCH_NCCL_TRACE_CPP_STACK=true
export TORCH_NCCL_DUMP_ON_TIMEOUT=true
相关推荐
weixin1997010801617 分钟前
[特殊字符] 人工抓取数据革命:从“人肉爬虫”到“智能数据工厂”全面转型指南
开发语言·爬虫·python
shangxianjiao1 小时前
fastapi
python·fastapi
我材不敲代码2 小时前
Python 基础:列表的切片与嵌套列表使用技巧
开发语言·python
彦为君2 小时前
JavaSE-03-集合框架(详细版)
java·开发语言·python
我材不敲代码2 小时前
Python 正则表达式进阶实战:从文本清洗到复杂信息提取
c++·python·正则表达式
小陶来咯2 小时前
大模型Function Calling的底层原理
python·ai
yuhuofei20212 小时前
【Python入门】Python中的输入与输出
开发语言·python
川冰ICE2 小时前
Python爬虫实战㉘|综合实战3,新闻热点追踪与舆情分析系统
开发语言·爬虫·python
Xidaoapi3 小时前
一次Python内存泄漏的真实排查经历
python
xing-xing3 小时前
PIP工具学习总结
python·pip