两张RTX 8000 运行大模型

降级 SGLang 到 0.1.9:0.1.9 版本内置的是 NCCL 2.18(与你系统的版本匹配,适配 Volta 架构);

降低NCCL版本尝试将NCCL降级到2.19.3(这是一个比较稳定的版本)

硬件层面:RTX 8000 是 2018 年发布的 Volta 架构 GPU,NCCL 从 2.20 版本开始大幅削减对 Volta 的支持,2.27.5 版本几乎完全移除了 Volta 相关的内核适配,导致初始化时直接段错误;

软件层面:SGLang 最新版的多卡张量并行(tp-size>1)模块硬编码调用 NCCL,即使指定 TORCH_DISTRIBUTED_USE_GLOO=1,也仅能让 PyTorch 分布式框架用 Gloo,但 SGLang 自身的设备通信层仍会调用 NCCL,无法绕过;

VLLM_USE_MODELSCOPE=true python3 -m vllm.entrypoints.openai.api_server

--model Qwen/Qwen2.5-32B-Instruct

--tensor-parallel-size 2 --dtype=half --port 8000

curl http://localhost:8000/v1/chat/completions

-H "Content-Type: application/json"

-d '{

"model": "Qwen/Qwen2.5-32B-Instruct",

"messages": [

{"role": "user", "content": "你好,请介绍一下自己"}

],

"temperature": 0.7,

"max_tokens": 1024

}'

python3 -c "

import torch, transformers, vllm

print(f'PyTorch版本: {torch.version }')

print(f'PyTorch CUDA: {torch.version.cuda}')

print(f'Transformers版本: {transformers.version }')

print(f'vLLM版本: {vllm.version }')

print(f'CUDA可用: {torch.cuda.is_available()}')

print(f'显卡数量: {torch.cuda.device_count()}')

"

PyTorch版本: 2.1.2+cu121

PyTorch CUDA: 12.1

Transformers版本: 4.41.0

vLLM版本: 0.3.0

CUDA可用: True

显卡数量: 2

相关推荐
sugar__salt几秒前
Prompt工程实战指南:规范设计、LLM接口封装与避坑技巧
人工智能·python·prompt
QiLinkOS6 分钟前
【用呼吸重构创造价值关系——QiLink生态】
c语言·数据结构·c++·人工智能·单片机·嵌入式硬件·算法
cxr8288 分钟前
高分子复合材料AI逆向设计合成(PCARPS)流程研究
人工智能·智能体
weixin_4684668521 分钟前
图像处理特征提取新手实战指南
图像处理·人工智能·算法·ai·机器视觉·特征提取
我爱cope21 分钟前
【Agent智能体13 | 工具使用-什么是工具?】
人工智能·语言模型·职场和发展
weixin_5091383421 分钟前
[特殊字符] 【硬核深度/万字解析】大模型“炼金术”时代的终结?带你读懂AGI范式转移!
人工智能·智能体·认知动力学·智能体认知
weixin_4684668521 分钟前
图像处理之形态学处理新手实战指南
图像处理·人工智能·算法·ai·机器视觉·形态学
CCC:CarCrazeCurator24 分钟前
Diffusion Transformer(DiT):原理、与 U-Net 对比及在视频生成中的深度应用
人工智能·音视频·transformer
羑悻27 分钟前
从 Claude Code 到 QClaw:AgentSkills 规范的跨生态实践与工程取舍!
人工智能
zhaoshuzhaoshu30 分钟前
提示词工程(Prompt Engineering)详细解析
人工智能