降级 SGLang 到 0.1.9:0.1.9 版本内置的是 NCCL 2.18(与你系统的版本匹配,适配 Volta 架构);
降低NCCL版本尝试将NCCL降级到2.19.3(这是一个比较稳定的版本)
硬件层面:RTX 8000 是 2018 年发布的 Volta 架构 GPU,NCCL 从 2.20 版本开始大幅削减对 Volta 的支持,2.27.5 版本几乎完全移除了 Volta 相关的内核适配,导致初始化时直接段错误;
软件层面:SGLang 最新版的多卡张量并行(tp-size>1)模块硬编码调用 NCCL,即使指定 TORCH_DISTRIBUTED_USE_GLOO=1,也仅能让 PyTorch 分布式框架用 Gloo,但 SGLang 自身的设备通信层仍会调用 NCCL,无法绕过;
VLLM_USE_MODELSCOPE=true python3 -m vllm.entrypoints.openai.api_server
--model Qwen/Qwen2.5-32B-Instruct
--tensor-parallel-size 2 --dtype=half --port 8000
curl http://localhost:8000/v1/chat/completions
-H "Content-Type: application/json"
-d '{
"model": "Qwen/Qwen2.5-32B-Instruct",
"messages": [
{"role": "user", "content": "你好,请介绍一下自己"}
],
"temperature": 0.7,
"max_tokens": 1024
}'
python3 -c "
import torch, transformers, vllm
print(f'PyTorch版本: {torch.version }')
print(f'PyTorch CUDA: {torch.version.cuda}')
print(f'Transformers版本: {transformers.version }')
print(f'vLLM版本: {vllm.version }')
print(f'CUDA可用: {torch.cuda.is_available()}')
print(f'显卡数量: {torch.cuda.device_count()}')
"
PyTorch版本: 2.1.2+cu121
PyTorch CUDA: 12.1
Transformers版本: 4.41.0
vLLM版本: 0.3.0
CUDA可用: True
显卡数量: 2