sglang pytorch NCCL hang分析

sglang部署出现卡死现象,通过cuda-gdb分析发现是NCCL卡死

cpp 复制代码
(cuda-gdb) info cuda kernels
  Kernel Parent Dev Grid Status                             SMs Mask  GridDim  BlockDim Invocation
*      0      -   1 3424489 Active 0x0000000000000000000000000000ff00ff (16,1,1) (544,1,1) ncclDevKernel_ReduceScatter_Sum_bf16_RING_LL()

但是默认没有打印调用栈,通过设置如下环境变量,打印NCCL错误信息和算子调用栈:

bash 复制代码
export NCCL_DEBUG=INFO

export TORCH_NCCL_TRACE_BUFFER_SIZE=40960
export TORCH_NCCL_TRACE_CPP_STACK=true
export TORCH_NCCL_DUMP_ON_TIMEOUT=true
相关推荐
猫头虎18 小时前
如何排查并解决项目启动时报错Error encountered while processing: java.io.IOException: closed 的问题
java·开发语言·jvm·spring boot·python·开源·maven
八零后琐话18 小时前
干货:程序员必备性能分析工具——Arthas火焰图
开发语言·python
青春不朽51220 小时前
Scrapy框架入门指南
python·scrapy
MZ_ZXD00120 小时前
springboot旅游信息管理系统-计算机毕业设计源码21675
java·c++·vue.js·spring boot·python·django·php
全栈老石21 小时前
Python 异步生存手册:给被 JS async/await 宠坏的全栈工程师
后端·python
梨落秋霜21 小时前
Python入门篇【模块/包】
python
阔皮大师1 天前
INote轻量文本编辑器
java·javascript·python·c#
小法师爱分享1 天前
StickyNotes,简单便签超实用
java·python
深蓝电商API1 天前
处理字体反爬:woff字体文件解析实战
爬虫·python