【极速部署】Ubuntu24.04+CUDA13.0 玩转 VLLM 0.15.0:预编译 Wheel 包 GPU 版安装全攻略

一、核心版本选择说明

本次安装锁定以下版本组合(适配 Ubuntu24.04 x86_64 架构 + RTX A6000 显卡):

  • VLLM 版本:0.15.0(稳定版,对 CUDA13.0 适配性最优)
  • Python 版本:3.12.x(PyTorch/VLLM 官方完全适配,避免 3.13 的兼容性问题)
  • CUDA 版本:13.0(系统原生版本,向下兼容 cu131 的 PyTorch 包)

二、完整安装步骤(分阶段落地)

阶段 1:创建并激活专属虚拟环境 vllm0150

通过 Miniconda 创建隔离环境,避免系统环境依赖冲突,指定 Python3.12 版本。

阶段 2:配置 CUDA 环境变量

让 VLLM 预编译包能精准识别系统 CUDA13.0,避免 "找不到 CUDA" 或版本匹配错误。

阶段 3:查找适配的 VLLM 预编译 Wheel 包

通过指令确认官方发布的、适配 CUDA13.0+Ubuntu24.04 的 Wheel 包,避免手动拼接 URL 出错。

阶段 4:用 pip 安装 VLLM 预编译 Wheel 包

选择预编译包形式,跳过源码编译,直接完成 GPU 版 VLLM 部署。

三、使用预构建 Wheel 包安装 VLLM 的核心好处

优势点 具体说明
无需编译,极速安装 跳过源码编译(需依赖 CUDA、gcc、rust 等复杂环境),1-2 分钟完成安装,新手零编译门槛
版本精准适配 官方预编译包已绑定指定 CUDA 版本(如 cu130),无需手动配置编译参数,避免 "CUDA 版本不匹配" 报错
环境兼容性高 标注manylinux_2_35的包适配 Ubuntu24.04 的 glibc 2.39,无系统库兼容问题
性能无损耗 预编译包采用官方优化编译参数,GPU 推理性能与源码编译版一致
依赖自动匹配 Wheel 包内置依赖清单,pip 可自动校验 PyTorch 等依赖版本,减少手动适配成本

四、查找适配的 VLLM Wheel 包(指令化查询)

通过 GitHub API 精准获取 VLLM 0.15.0 版本下适配 CUDA13.0+x86_64 架构的 Wheel 包:

python 复制代码
curl -s https://api.github.com/repos/vllm-project/vllm/releases/tags/v0.15.0 | jq -r '.assets[] | select(.name | contains("cu130") and contains("x86_64")) | .browser_download_url'

执行后会输出适配的 Wheel 包 URL:https://github.com/vllm-project/vllm/releases/download/v0.15.0/vllm-0.15.0+cu130-cp38-abi3-manylinux_2_35_x86_64.whl(即本次安装的目标包)。

五、核心安装指令全解析

指令:pip install https://github.com/vllm-project/vllm/releases/download/v0.15.0/vllm-0.15.0+cu130-cp38-abi3-manylinux_2_35_x86_64.whl --extra-index-url https://download.pytorch.org/whl/cu130

指令片段 核心作用 适配你的环境的补充说明
pip install Python 官方包安装命令 负责下载、校验、安装指定的 Wheel 包,处理依赖关系
完整 Wheel 包 URL 指定要安装的 VLLM 预编译包 关键标识解读:- v0.15.0:VLLM 版本锁定 0.15.0;- +cu130:绑定 CUDA13.0,仅支持 GPU 运行;- cp38-abi3:兼容 Python3.8+(含你的 Python3.12);- manylinux_2_35_x86_64:适配 Ubuntu24.04 的 glibc 2.39+x86_64 架构
--extra-index-url https://download.pytorch.org/whl/cu130 补充 PyTorch 包索引源 pip 默认从官方 PyPI 源找包,而 PyTorch 的 CUDA 版本包不在默认源中;该参数表示:若 VLLM 依赖的 PyTorch 未安装,pip 会从 PyTorch 官方 cu130 源查找,避免安装 CPU 版 PyTorch

六、安装过程关键注意事项

  1. 禁用 uv,优先用 pip:uv 对 PyTorch 的 CUDA 专属源解析逻辑兼容差,易出现 "依赖解析卡住" 或 "找不到包",pip 是最稳定的选择。
  2. Wheel 包系统版本匹配 :必须选择manylinux_2_35版本(而非2_31),否则适配 Ubuntu24.04 的 glibc 2.39 会报错。
  3. 环境变量仅临时生效 :若需永久生效 CUDA 环境变量,需将配置写入~/.bashrc文件。
  4. 验证步骤不可少:安装后需检查 GPU 是否可用,避免 "装了包但无法调用 GPU"。

七、可直接复制的指令(每条一个框)

1. 更新系统基础工具

python 复制代码
sudo apt update -y && sudo apt install -y curl unzip git

2. 创建并激活虚拟环境 vllm0150

python 复制代码
conda create -n vllm0150 python=3.12 -y
conda activate vllm0150

3. 配置 CUDA13.0 环境变量(永久生效)

把 CUDA 13.0 的环境变量配置永久写入~/.bashrc 文件 ,让每次打开终端(或激活虚拟环境)时自动加载,无需手动执行export命令,以下是详细、新手友好的操作步骤(适配 Ubuntu24.04 系统):

步骤 1:打开~/.bashrc 文件(新手推荐用 nano 编辑器)

nano 是可视化编辑器,操作简单,无需记忆复杂快捷键,执行以下命令:

python 复制代码
nano ~/.bashrc

执行后会进入 nano 编辑界面,界面底部会显示操作快捷键(如^O= 保存,^X= 退出)。

步骤 2:在文件末尾添加 CUDA 13.0 环境变量

将光标移到文件最后一行 (可按End键或直接向下翻),粘贴以下内容(与临时配置的环境变量一致):

python 复制代码
# 配置CUDA 13.0环境变量(永久生效)
export CUDA_HOME=/usr/local/cuda-13.0
export PATH=$CUDA_HOME/bin:$PATH
export LD_LIBRARY_PATH=$CUDA_HOME/lib64:$LD_LIBRARY_PATH

✅ 关键检查:确认/usr/local/cuda-13.0路径存在(执行ls /usr/local/cuda-13.0,有输出则路径正确;若显示cuda是软链接,也可写export CUDA_HOME=/usr/local/cuda)。

步骤 3:保存并退出 nano 编辑器
  1. 按键盘Ctrl + O(即^O),nano 会提示 "Save modified buffer?",直接按Enter确认保存;
  2. 按键盘Ctrl + X(即^X)退出 nano 编辑器。
步骤 4:让配置立即生效(无需重启终端)

执行以下命令,强制加载修改后的~/.bashrc 文件:

python 复制代码
source ~/.bashrc

✅ 替代方案:若不想执行source,直接关闭当前终端,重新打开一个终端即可(系统会自动加载新配置)。

步骤 5:验证配置是否永久生效
  1. 先关闭当前终端,重新打开一个新终端;

  2. 执行以下命令检查环境变量:

    python 复制代码
    # 检查CUDA_HOME
    echo $CUDA_HOME
    # 检查PATH中是否包含CUDA bin目录
    echo $PATH | grep cuda-13.0
    # 检查LD_LIBRARY_PATH
    echo $LD_LIBRARY_PATH | grep cuda-13.0

    若输出包含/usr/local/cuda-13.0相关路径,说明配置已永久生效。

4. 升级 pip

python 复制代码
pip install --upgrade pip setuptools wheel

5. 查找适配的 VLLM Wheel 包

python 复制代码
curl -s https://api.github.com/repos/vllm-project/vllm/releases/tags/v0.15.0 | jq -r '.assets[] | select(.name | contains("cu130") and contains("x86_64")) | .browser_download_url'

6. 安装 VLLM 0.15.0 GPU 版

python 复制代码
pip install https://github.com/vllm-project/vllm/releases/download/v0.15.0/vllm-0.15.0+cu130-cp38-abi3-manylinux_2_35_x86_64.whl --extra-index-url https://download.pytorch.org/whl/cu130

7. 验证安装结果

python 复制代码
python -c "import vllm, torch, sys;
print('VLLM版本:', vllm.__version__);
print('Python版本:', sys.version.split()[0]);  # 正确获取Python版本
print('PyTorch版本:', torch.__version__);     # 正确获取PyTorch版本
print('CUDA可用:', torch.cuda.is_available());
print('PyTorch绑定的CUDA版本:', torch.version.cuda if hasattr(torch.version, 'cuda') else '无CUDA');
print('GPU名称:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else '无GPU')"
相关推荐
yaoming1682 小时前
python性能优化方案研究
python·性能优化
会跑的葫芦怪2 小时前
若依Vue 项目多子路径配置
前端·javascript·vue.js
源于花海2 小时前
迁移学习相关的期刊和会议
人工智能·机器学习·迁移学习·期刊会议
码云数智-大飞3 小时前
使用 Python 高效提取 PDF 中的表格数据并导出为 TXT 或 Excel
python
微露清风3 小时前
系统性学习Linux-第二讲-基础开发工具
linux·运维·学习
乱世刀疤3 小时前
OpenCode在Windows上的安装与使用入门 | 保姆级教程
ai编程
X-Vision3 小时前
Visual Studio 2022中配置cuda环境
visual studio·cuda
阳光九叶草LXGZXJ4 小时前
达梦数据库-学习-48-DmDrs控制台命令(同步之Manager、CPT模块)
linux·运维·数据库·sql·学习
DisonTangor4 小时前
DeepSeek-OCR 2: 视觉因果流
人工智能·开源·aigc·ocr·deepseek