关于vllm【常见问题解决方案】

1、启动时报错

【1】

执行命令

powershell 复制代码
vllm serve /path/to/Qwen-2.5-7B-Instruct --served-model-name vllm --enable-prefix-caching --served-model-name Qwen-2.5-7B-Instruct

报错信息

powershell 复制代码
error: Failures have been detected while processing an MLIR pass pipeline
...
RuntimeError: PassManager::run failed

可能原因

这是 Triton 编译器 在生成 GPU 内核时失败,常见于:

1\] Tesla T4(Compute Capability 7.5) 不支持某些 Triton 特性。 \[2\] vLLM 版本 + Triton 版本不兼容。 `解决方案` \[1\] 禁用 --enable-prefix-caching ```powershell vllm serve /path/to/Qwen-2.5-7B-Instruct --served-model-name Qwen-2.5-7B-Instruct ``` ### 【2】 `执行命令` ```powershell vllm serve /path/to/Qwen2-7B-Instruct --served-model-name vllm --enable-prefix-caching --served-model-name Qwen2-7B-Instruct ``` `报错信息` ```powershell CUDA out of memory. Tried to allocate 224.00 MiB. GPU 0 has a total capacity of 14.58 GiB of which 161.38 MiB is free. ``` `可能原因` 因为你的 GPU无法加载 Qwen2-7B-Instruct 模型所需的全部显存。 `解决方案` \[1\] 使用量化模型 使用 4-bit 量化模型(如 Qwen2-7B-Instruct-GPTQ 或 AWQ)。

相关推荐
悠哉悠哉愿意15 小时前
【嵌入式学习笔记】任务调度器
开发语言·笔记·单片机·嵌入式硬件·学习
j_xxx404_15 小时前
Linux:版本控制器Git(第一章)|历史|理解Git|相关git操作|提交冲突解决
linux·运维·git·ai
Robot侠15 小时前
ROS1从入门到精通 1 :ROS1简介与环境搭建(Ubuntu 20.04 + Noetic完整指南)
linux·ubuntu·ros·机器人操作系统
爱笑的眼睛1115 小时前
JAX 函数变换:超越传统自动微分的编程范式革命
java·人工智能·python·ai
暗然而日章15 小时前
C++基础:Stanford CS106L学习笔记 15 RAII&智能指针&构建C++工程
c++·笔记·学习
TL滕15 小时前
从0开始学算法——第二十一天(高级链表操作)
笔记·学习·算法
纸带15 小时前
如何理解USB 配置描述符wTotalLength位运算深度
linux·网络·windows
北邮刘老师15 小时前
马斯克的梦想与棋盘:空天地一体的智能体互联网
数据库·人工智能·架构·大模型·智能体·智能体互联网
七夜zippoe15 小时前
使用OpenLLM管理轻量级大模型服务
架构·langchain·大模型·kv·轻量
落羽的落羽15 小时前
【C++】深入浅出“图”——图的遍历与最小生成树算法
linux·服务器·c++·人工智能·算法·机器学习·深度优先