关于vllm【常见问题解决方案】

1、启动时报错

【1】

执行命令

powershell 复制代码
vllm serve /path/to/Qwen-2.5-7B-Instruct --served-model-name vllm --enable-prefix-caching --served-model-name Qwen-2.5-7B-Instruct

报错信息

powershell 复制代码
error: Failures have been detected while processing an MLIR pass pipeline
...
RuntimeError: PassManager::run failed

可能原因

这是 Triton 编译器 在生成 GPU 内核时失败,常见于:

1\] Tesla T4(Compute Capability 7.5) 不支持某些 Triton 特性。 \[2\] vLLM 版本 + Triton 版本不兼容。 `解决方案` \[1\] 禁用 --enable-prefix-caching ```powershell vllm serve /path/to/Qwen-2.5-7B-Instruct --served-model-name Qwen-2.5-7B-Instruct ``` ### 【2】 `执行命令` ```powershell vllm serve /path/to/Qwen2-7B-Instruct --served-model-name vllm --enable-prefix-caching --served-model-name Qwen2-7B-Instruct ``` `报错信息` ```powershell CUDA out of memory. Tried to allocate 224.00 MiB. GPU 0 has a total capacity of 14.58 GiB of which 161.38 MiB is free. ``` `可能原因` 因为你的 GPU无法加载 Qwen2-7B-Instruct 模型所需的全部显存。 `解决方案` \[1\] 使用量化模型 使用 4-bit 量化模型(如 Qwen2-7B-Instruct-GPTQ 或 AWQ)。

相关推荐
鸠摩智首席音效师14 分钟前
如何在 Ubuntu 24.04 安装 KVM ?
linux·运维·ubuntu
静渊谋1 小时前
应急响应整理
linux·windows
ThreeYear_s1 小时前
电力电子技术知识总结-----PWM知识点
笔记
她说人狗殊途1 小时前
Ajax笔记
前端·笔记·ajax
CODE_RabbitV1 小时前
Linux 文件与目录操作命令宝典
linux·运维·服务器
gnawkhhkwang1 小时前
io_submit系统调用及示例
linux·c语言
caz281 小时前
麒麟服务器版操作系统添加VNC
linux·服务器·centos·vnc
gnawkhhkwang1 小时前
io_cancel系统调用及示例
linux·c语言
melody_of_Canon1 小时前
uv 常用指令
linux·windows·uv
victory04311 小时前
影响人类发音的疾病类型种类和数据集
人工智能·深度学习·ai