关于vllm【常见问题解决方案】

1、启动时报错

【1】

执行命令

powershell 复制代码
vllm serve /path/to/Qwen-2.5-7B-Instruct --served-model-name vllm --enable-prefix-caching --served-model-name Qwen-2.5-7B-Instruct

报错信息

powershell 复制代码
error: Failures have been detected while processing an MLIR pass pipeline
...
RuntimeError: PassManager::run failed

可能原因

这是 Triton 编译器 在生成 GPU 内核时失败,常见于:

1\] Tesla T4(Compute Capability 7.5) 不支持某些 Triton 特性。 \[2\] vLLM 版本 + Triton 版本不兼容。 `解决方案` \[1\] 禁用 --enable-prefix-caching ```powershell vllm serve /path/to/Qwen-2.5-7B-Instruct --served-model-name Qwen-2.5-7B-Instruct ``` ### 【2】 `执行命令` ```powershell vllm serve /path/to/Qwen2-7B-Instruct --served-model-name vllm --enable-prefix-caching --served-model-name Qwen2-7B-Instruct ``` `报错信息` ```powershell CUDA out of memory. Tried to allocate 224.00 MiB. GPU 0 has a total capacity of 14.58 GiB of which 161.38 MiB is free. ``` `可能原因` 因为你的 GPU无法加载 Qwen2-7B-Instruct 模型所需的全部显存。 `解决方案` \[1\] 使用量化模型 使用 4-bit 量化模型(如 Qwen2-7B-Instruct-GPTQ 或 AWQ)。

相关推荐
AGI-四顾18 小时前
文生图模型选型速览
人工智能·ai
生信研究猿18 小时前
反重力大模型
大模型
石去皿18 小时前
【嵌入式就业10】Linux内核深度解析:从启动流程到驱动框架的工业级实践
linux·运维·服务器
QT.qtqtqtqtqt18 小时前
uni-app小程序前端开发笔记(更新中)
前端·笔记·小程序·uni-app
954L18 小时前
CentOs7执行yum update出现链接404问题
linux·centos·yum·vault
Trouvaille ~18 小时前
【Linux】应用层协议设计实战(二):Jsoncpp序列化与完整实现
linux·运维·服务器·网络·c++·json·应用层
山顶夕景18 小时前
【MLLM】nano-banana绘图
大模型·aigc·多模态
YongCheng_Liang18 小时前
零基础学 AI:AI 基础能力夯实 —— 编程语言与工具篇
ai
EmbedLinX18 小时前
嵌入式之协议解析
linux·网络·c++·笔记·学习
vortex518 小时前
解密UUOC:Shell编程中“无用的cat使用”详解
linux·shell编程