关于vllm【常见问题解决方案】

1、启动时报错

【1】

执行命令

powershell 复制代码
vllm serve /path/to/Qwen-2.5-7B-Instruct --served-model-name vllm --enable-prefix-caching --served-model-name Qwen-2.5-7B-Instruct

报错信息

powershell 复制代码
error: Failures have been detected while processing an MLIR pass pipeline
...
RuntimeError: PassManager::run failed

可能原因

这是 Triton 编译器 在生成 GPU 内核时失败,常见于:

1 Tesla T4(Compute Capability 7.5) 不支持某些 Triton 特性。

2 vLLM 版本 + Triton 版本不兼容。
解决方案

1 禁用 --enable-prefix-caching

powershell 复制代码
vllm serve /path/to/Qwen-2.5-7B-Instruct --served-model-name Qwen-2.5-7B-Instruct

【2】

执行命令

powershell 复制代码
vllm serve /path/to/Qwen2-7B-Instruct --served-model-name vllm --enable-prefix-caching --served-model-name Qwen2-7B-Instruct

报错信息

powershell 复制代码
CUDA out of memory. Tried to allocate 224.00 MiB.
GPU 0 has a total capacity of 14.58 GiB of which 161.38 MiB is free.

可能原因

因为你的 GPU无法加载 Qwen2-7B-Instruct 模型所需的全部显存。
解决方案

1 使用量化模型

使用 4-bit 量化模型(如 Qwen2-7B-Instruct-GPTQ 或 AWQ)。

相关推荐
剑神一笑5 小时前
Linux lsof 命令深度解析:从文件描述符到进程追踪
linux·运维·php
就叫飞六吧5 小时前
cookie的SameSite属性
笔记
数据堂官方账号5 小时前
数据上新|覆盖全双工、具身智能、世界模型等热门研究趋势
人工智能·大模型·具身智能
OpenVINO 中文社区5 小时前
OpenVINO™ 2026.2: 更多模型,更快 GPU,更强智能体
经验分享
ん贤5 小时前
Higress 详细笔记
笔记·云原生·higress
不羁的木木5 小时前
ArkWeb实战学习笔记04-JavaScript与Native通信
笔记·学习·harmonyos
andlbds5 小时前
解决Ubuntu20.04进入系统卡死在厂商Logo界面问题
linux·ubuntu
MIXLLRED5 小时前
解决: Ubuntu 22.04上树莓派4B扩展板ROS2兼容性修复指南
linux·ubuntu·树莓派
captain_AIouo5 小时前
深耕海外市场,autoAGC攻破品牌跨境内容运营难题
大数据·人工智能·经验分享·产品运营·aigc·内容运营
zizle_lin5 小时前
CentOS配置yum源
linux·运维·centos