sglang pytorch NCCL hang分析

sglang部署出现卡死现象,通过cuda-gdb分析发现是NCCL卡死

cpp 复制代码
(cuda-gdb) info cuda kernels
  Kernel Parent Dev Grid Status                             SMs Mask  GridDim  BlockDim Invocation
*      0      -   1 3424489 Active 0x0000000000000000000000000000ff00ff (16,1,1) (544,1,1) ncclDevKernel_ReduceScatter_Sum_bf16_RING_LL()

但是默认没有打印调用栈,通过设置如下环境变量,打印NCCL错误信息和算子调用栈:

bash 复制代码
export NCCL_DEBUG=INFO

export TORCH_NCCL_TRACE_BUFFER_SIZE=40960
export TORCH_NCCL_TRACE_CPP_STACK=true
export TORCH_NCCL_DUMP_ON_TIMEOUT=true
相关推荐
啃火龙果的兔子3 小时前
Pygame开发游戏流程详解
python·游戏·pygame
BoBoZz193 小时前
AmbientSpheres 调整材质的环境光系数来控制3D物体的着色效果
python·vtk·图形渲染·图形处理
多吃蔬菜!!!3 小时前
筛选机器人可动关节、校准零位姿态并获取末端执行器位置
python·机器人
Blossom.1183 小时前
基于混合检索架构的RAG系统优化实践:从Baseline到生产级部署
人工智能·python·算法·chatgpt·ai作画·架构·自动化
AC赳赳老秦4 小时前
跨境电商决胜之道:基于深度数据分析的选品策略与库存优化
大数据·开发语言·人工智能·python·php·跨境电商·deepseek
馬致远4 小时前
Flask 根据数据表生成模型类(逆向工程)
后端·python·flask
luoluoal4 小时前
基于python图像信息隐藏技术设计(源码+文档)
python·mysql·django·毕业设计·源码
山土成旧客4 小时前
【Python学习打卡-Day31】项目架构师之路:告别杂乱脚本,拥抱工程化思维
开发语言·python·学习
多吃蔬菜!!!4 小时前
pybullet.addUserDebugLine
python