关于vllm【常见问题解决方案】

1、启动时报错

【1】

执行命令

powershell 复制代码
vllm serve /path/to/Qwen-2.5-7B-Instruct --served-model-name vllm --enable-prefix-caching --served-model-name Qwen-2.5-7B-Instruct

报错信息

powershell 复制代码
error: Failures have been detected while processing an MLIR pass pipeline
...
RuntimeError: PassManager::run failed

可能原因

这是 Triton 编译器 在生成 GPU 内核时失败,常见于:

1\] Tesla T4(Compute Capability 7.5) 不支持某些 Triton 特性。 \[2\] vLLM 版本 + Triton 版本不兼容。 `解决方案` \[1\] 禁用 --enable-prefix-caching ```powershell vllm serve /path/to/Qwen-2.5-7B-Instruct --served-model-name Qwen-2.5-7B-Instruct ``` ### 【2】 `执行命令` ```powershell vllm serve /path/to/Qwen2-7B-Instruct --served-model-name vllm --enable-prefix-caching --served-model-name Qwen2-7B-Instruct ``` `报错信息` ```powershell CUDA out of memory. Tried to allocate 224.00 MiB. GPU 0 has a total capacity of 14.58 GiB of which 161.38 MiB is free. ``` `可能原因` 因为你的 GPU无法加载 Qwen2-7B-Instruct 模型所需的全部显存。 `解决方案` \[1\] 使用量化模型 使用 4-bit 量化模型(如 Qwen2-7B-Instruct-GPTQ 或 AWQ)。

相关推荐
网络工程小王8 小时前
【大数据技术详解】——Kibana(学习笔记)
大数据·笔记·学习
朽棘不雕8 小时前
Linux工具(上)
linux·运维·服务器
努力的lpp8 小时前
2024小迪安全课程第四节复习笔记
笔记·安全
熊猫钓鱼>_>9 小时前
WorkBuddy使用心得:腾讯版“免部署小龙虾“的办公新体验
人工智能·ai·腾讯云·agent·wechat·openclaw·workbuddy
BestOrNothing_20159 小时前
Ubuntu 22.04 下调整 VS Code 界面及字体教程
linux·vscode·ubuntu22.04·界面调整
蔚天灿雨9 小时前
Kage:在 Codex、Claude 和 QoderCLI 等 CodingAgentCLI 之间 Fork 与迁移 Session
人工智能·ai·agent·ai编程
gao_tjie9 小时前
如何用5秒视频讲述精彩的开场:Pika视频生成API的短内容突破
ai
桌面运维家9 小时前
Windows/Linux云桌面:高校VDisk方案部署指南
linux·运维·windows
巧妹儿9 小时前
Python 配置管理封神技:pydantic_settings+@lru_cache,支持优先级,安全又高效,杜绝重复加载!
开发语言·python·ai·配置管理
吉哥机顶盒刷机9 小时前
海信IP820N机顶盒的刷机教程
经验分享·刷机