关于vllm【常见问题解决方案】

1、启动时报错

【1】

执行命令

powershell 复制代码
vllm serve /path/to/Qwen-2.5-7B-Instruct --served-model-name vllm --enable-prefix-caching --served-model-name Qwen-2.5-7B-Instruct

报错信息

powershell 复制代码
error: Failures have been detected while processing an MLIR pass pipeline
...
RuntimeError: PassManager::run failed

可能原因

这是 Triton 编译器 在生成 GPU 内核时失败,常见于:

1\] Tesla T4(Compute Capability 7.5) 不支持某些 Triton 特性。 \[2\] vLLM 版本 + Triton 版本不兼容。 `解决方案` \[1\] 禁用 --enable-prefix-caching ```powershell vllm serve /path/to/Qwen-2.5-7B-Instruct --served-model-name Qwen-2.5-7B-Instruct ``` ### 【2】 `执行命令` ```powershell vllm serve /path/to/Qwen2-7B-Instruct --served-model-name vllm --enable-prefix-caching --served-model-name Qwen2-7B-Instruct ``` `报错信息` ```powershell CUDA out of memory. Tried to allocate 224.00 MiB. GPU 0 has a total capacity of 14.58 GiB of which 161.38 MiB is free. ``` `可能原因` 因为你的 GPU无法加载 Qwen2-7B-Instruct 模型所需的全部显存。 `解决方案` \[1\] 使用量化模型 使用 4-bit 量化模型(如 Qwen2-7B-Instruct-GPTQ 或 AWQ)。

相关推荐
lingggggaaaa9 分钟前
小迪安全v2023学习笔记(一百四十五讲)—— Webshell篇&魔改冰蝎&打乱特征指纹&新增加密协议&过后门查杀&过流量识别
笔记·学习·安全·魔改冰蝎·免杀对抗·免杀技术
kaoa00030 分钟前
Linux入门攻坚——53、drbd - Distribute Replicated Block Device,分布式复制块设备-2
linux·运维·服务器
胡耀超40 分钟前
通往AGI的模块化路径:一个可能的技术架构(同时解答微调与RAG之争)
人工智能·python·ai·架构·大模型·微调·agi
Digitally41 分钟前
如何将iPhone上的笔记传输到电脑
笔记·电脑·iphone
落羽的落羽43 分钟前
【C++】现代C++的新特性constexpr,及其在C++14、C++17、C++20中的进化
linux·c++·人工智能·学习·机器学习·c++20·c++40周年
RisunJan1 小时前
Linux命令-e2label命令(设置第二扩展文件系统的卷标)
linux·运维·服务器
Claire_ccat1 小时前
2025山西省网络安全职业技能大赛PWN方向题解
linux·安全·网络安全·pwn·栈溢出
小苏兮1 小时前
【把Linux“聊”明白】编译器gcc/g++与调试器gdb/cgdb:从编译原理到高效调试
java·linux·运维·学习·1024程序员节
LCG元1 小时前
Linux 软件安装大全:apt/yum/dpkg/rpm/snap 到底用哪个?
linux
倦王1 小时前
Linux一些基本命令--黑马学习
linux·运维·服务器