关于vllm【常见问题解决方案】

1、启动时报错

【1】

执行命令

powershell 复制代码
vllm serve /path/to/Qwen-2.5-7B-Instruct --served-model-name vllm --enable-prefix-caching --served-model-name Qwen-2.5-7B-Instruct

报错信息

powershell 复制代码
error: Failures have been detected while processing an MLIR pass pipeline
...
RuntimeError: PassManager::run failed

可能原因

这是 Triton 编译器 在生成 GPU 内核时失败,常见于:

1\] Tesla T4(Compute Capability 7.5) 不支持某些 Triton 特性。 \[2\] vLLM 版本 + Triton 版本不兼容。 `解决方案` \[1\] 禁用 --enable-prefix-caching ```powershell vllm serve /path/to/Qwen-2.5-7B-Instruct --served-model-name Qwen-2.5-7B-Instruct ``` ### 【2】 `执行命令` ```powershell vllm serve /path/to/Qwen2-7B-Instruct --served-model-name vllm --enable-prefix-caching --served-model-name Qwen2-7B-Instruct ``` `报错信息` ```powershell CUDA out of memory. Tried to allocate 224.00 MiB. GPU 0 has a total capacity of 14.58 GiB of which 161.38 MiB is free. ``` `可能原因` 因为你的 GPU无法加载 Qwen2-7B-Instruct 模型所需的全部显存。 `解决方案` \[1\] 使用量化模型 使用 4-bit 量化模型(如 Qwen2-7B-Instruct-GPTQ 或 AWQ)。

相关推荐
你也渴望鸡哥的力量么18 小时前
爬虫学习笔记
笔记·爬虫·学习
dingyi22266618 小时前
AI Coding 的一些感悟
llm
日更嵌入式的打工仔18 小时前
InitLWIP() 初始化
笔记·嵌入式硬件·学习
峰顶听歌的鲸鱼18 小时前
38.Shell脚本编程2
linux·运维·服务器·笔记·学习方法
智泊AI18 小时前
NLP是什么?一文带你搞懂自然语言处理(NLP)看这篇就够了!
llm
---学无止境---18 小时前
Linux工作队列workqueue的实现
linux
dessler18 小时前
Elasticsearch(ES)简介与入门
linux·运维·hdfs
飞机火车巴雷特18 小时前
【论文阅读】Debating with More Persuasive LLMs Leads to More Truthful Answers
论文阅读·大模型·辩论机制
晴天¥18 小时前
Linux操作系统如何使用ISO镜像文件来搭建本地镜像源?
linux·运维·centos
Cx330❀19 小时前
《Linux基础入门指令》:从零开始理解Linux系统
linux·运维·服务器·经验分享