记一次在双 RTX 3090 工作站上部署 vLLM 与 Qwen3.6-35B-AWQ 的实战记录

1. 升级目的

最近需要本地部署大模型推理服务，目标是运行 Qwen3.6-35B 的 INT4 量化版本（AWQ 格式） ，并使用高性能推理引擎 vLLM 提供服务。由于模型采用 AWQ 量化，且需要较新的 CUDA 环境，现有的 CUDA 11.5 和旧版驱动已经不满足要求。因此，决定将 NVIDIA 驱动和 CUDA Toolkit 升级到 CUDA 12.9 兼容版本，并在 Docker 容器中运行 vLLM，以实现环境隔离与快速部署。

2. 硬件环境

工作站型号：自组装工作站
操作系统：Ubuntu 22.04 LTS
GPU：2 × NVIDIA RTX 3090（单卡 24 GB 显存）
内存：128 GB DDR4
Docker 版本：28.0.1（已安装并运行着 Ollama、Xinference、Dify 等容器）
现有驱动：NVIDIA 570.133.07（仅支持到 CUDA 12.4）
目标驱动：NVIDIA 575.64.05（支持 CUDA 12.9）

3. 升级前准备

3.1 重要数据备份

在执行任何系统级变更前，首先备份了 /home 目录以及重要的 Docker 卷数据，以防不测。

3.2 下载新驱动与 CUDA 包

NVIDIA 驱动 ：从 NVIDIA 官方网站下载了 NVIDIA-Linux-x86_64-575.64.05.run 文件，存放于 /mnt/hdd/ai/software/。官方下载地址可以在 NVIDIA Driver Downloads 选择相应版本获得。
CUDA Toolkit 12.9 ：考虑到网络稳定性，选择下载了 Runfile 格式的离线安装包（cuda_12.9.1_575.57.08_linux.run），同样保存在本地磁盘。可以在 CUDA Toolkit 12.9 下载页面按需获取。

3.3 模型下载

Qwen3.6-35B 并非官方直接发布的模型，而是社区贡献的量化版本。我选择了对 vLLM 支持最好的 AWQ 格式 ，从 Hugging Face 仓库 QuantTrio/Qwen3.6-35B-A3B-AWQ 下载至本地 /mnt/hdd/ai/modelscope/models/QuantTrio/Qwen3.6-35B-A3B-AWQ。若从 Hugging Face 下载缓慢，可以使用 hf-mirror.com 等镜像加速。

4. 升级过程与问题解决

4.1 卸载旧版驱动

首先彻底清除旧版 570 驱动，避免残留文件冲突。步骤包括：

bash 复制代码

# 切换到文本模式
sudo init 3
# 卸载所有 nvidia 相关包
sudo apt-get --purge remove -y nvidia-* libnvidia-*
sudo apt autoremove -y
# 如果原先是用 .run 文件安装的，也用原文件卸载
sudo bash /path/to/NVIDIA-Linux-x86_64-570.133.07.run --uninstall
sudo reboot

重启后系统进入纯命令行模式，准备安装新驱动。

4.2 安装新驱动 (575)

安装前确保内核头文件等依赖已就绪：

bash 复制代码

sudo apt update && sudo apt upgrade -y
sudo apt install -y build-essential dkms linux-headers-$(uname -r)

然后进入文本模式运行安装程序：

bash 复制代码

sudo init 3
cd /mnt/hdd/ai/software/
sudo chmod +x NVIDIA-Linux-x86_64-575.64.05.run
sudo ./NVIDIA-Linux-x86_64-575.64.05.run --dkms

安装过程中选择安装 32 位兼容库、自动配置 Xorg，并注册 DKMS。若开启了 Secure Boot，会要求设置一个临时密码用于注册 MOK 密钥（重启后会进入蓝色 MokManager 界面，按提示操作即可）。这一步很关键，否则新驱动可能无法加载。

安装完成后重启。

4.3 系统升级卡在 Docker 配置

在执行 sudo apt update && sudo apt upgrade -y 时，进程长时间卡在 正在设置 docker-ce (5:29.5.0-1~ubuntu.22.04~jammy)。原因可能是 Docker 的 daemon.json 配置文件存在语法错误或守护进程无法正常重启。解决方法：

bash 复制代码

# 强制结束卡住的 dpkg 进程
sudo kill -9 <pid>
# 修复未完成的配置
sudo dpkg --configure -a
# 如果再次卡住，检查并修正 /etc/docker/daemon.json，可临时清空为 {}
echo '{}' | sudo tee /etc/docker/daemon.json
sudo systemctl daemon-reload
sudo systemctl start docker
sudo dpkg --configure -a

之后重新运行 sudo apt update && sudo apt upgrade -y 即可顺利完成。

4.4 驱动安装后 `nvidia-smi` 报错

重启后运行 nvidia-smi 时出现：

复制代码

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver.

这表明驱动模块未正确加载。排查过程：

检查 nouveau 驱动是否禁用 ：lsmod | grep nouveau 有输出，说明开源驱动仍在运行。将其彻底加入黑名单：
bash 复制代码
```
echo -e "blacklist nouveau\noptions nouveau modeset=0" | sudo tee /etc/modprobe.d/blacklist-nouveau.conf
sudo update-initramfs -u
sudo reboot
```
检查 Secure Boot 状态 ：执行 mokutil --sb-state 显示 SecureBoot enabled。由于之前安装驱动时已注册 MOK，但仍可能因签名问题被拦截。直接进入 BIOS 禁用 Secure Boot 后，驱动成功加载（对于物理隔离的工作站，关闭 Secure Boot 是可接受的风险）。

或者，也可以使用 DKMS 重新编译并安装模块：

bash 复制代码

sudo dkms install -m nvidia -v 575.64.05
sudo reboot

最终 nvidia-smi 正确输出 Driver Version: 575.64.05 和 CUDA Version: 12.9。

4.5 安装 CUDA 12.9 Toolkit

为了让宿主机拥有 nvcc 编译器（可选，实际运行 vLLM 容器并不需要），我后续又安装了 CUDA Toolkit 12.9。由于已通过 Runfile 下载离线包，安装方式为：

bash 复制代码

sudo init 3
sudo systemctl stop docker  # 防止模块被占用
chmod +x cuda_12.9.1_575.57.08_linux.run
sudo sh ./cuda_12.9.1_575.57.08_linux.run

关键：在组件选择界面中，务必取消选中 "Driver" 选项，因为我们已经安装了更新版本的驱动。安装完成后重启 Docker。

配置环境变量：

bash 复制代码

echo 'export PATH=/usr/local/cuda-12.9/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.9/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc
nvcc --version  # 验证

4.6 Docker 反复重启旧容器

完成 CUDA 安装并重启 Docker 后，systemctl status docker 长时间显示 activating，日志中却不断出现两个旧容器重启的循环（如 docker-plugin_daemon-1 和另一个容器）。这是因为这些容器设置了 restart: always 且启动失败，导致 Docker 守护进程看似卡死。解决方法：

bash 复制代码

sudo docker stop $(sudo docker ps -aq)
sudo docker rm 88160c2d47b1 0d4a087c4385
sudo docker container prune -f
sudo systemctl restart docker

Docker 恢复正常，GPU 可用性测试通过：

bash 复制代码

sudo docker run --rm --gpus all nvidia/cuda:12.9.0-base-ubuntu22.04 nvidia-smi

4.7 部署 vLLM 并解决参数错误

我拉取了与驱动版本匹配的镜像 vllm/vllm-openai:v0.20.2-cu129，并编写了 docker-compose.yml。最初的版本启动时反复报错：

复制代码

vllm: error: unrecognized arguments: ---trust-remote-code

检查 YAML 文件发现 command 列表中 --trust-remote-code 那一行缺少了列表标记 - ，导致被解析为 ---trust-remote-code。修正后即可正常启动。

最终的 docker-compose.yml 如下（使用位置参数，避免未来 --model 选项弃用）：

yaml 复制代码

services:
  vllm:
    image: vllm/vllm-openai:v0.20.2-cu129
    container_name: vllm
    restart: always
    ports:
      - "18000:8000"
    networks:
      - docker_default
    volumes:
      - /mnt/hdd/ai/modelscope/models/QuantTrio/Qwen3.6-35B-A3B-AWQ:/model:ro
      - /usr/share/zoneinfo/Asia/Shanghai:/etc/localtime
      - /etc/timezone:/etc/timezone
    environment:
      - TZ=Asia/Shanghai
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    command:
      - /model
      - --trust-remote-code
      - --tensor-parallel-size
      - "2"
      - --dtype
      - auto
      - --max-model-len
      - "16384"
      - --gpu-memory-utilization
      - "0.85"
      - --enable-prefix-caching
      - --quantization
      - awq
      - --enable-chunked-prefill

networks:
  docker_default:
    external: true

经过测试，双 RTX 3090 可以稳定运行该模型，max-model-len 可根据实际显存余量从 8192 逐步上调至 16384 甚至更高。

4.8 监控与交互

为了方便监控和快速测试，我又安装了 vllm-playground。由于没有官方 Docker 镜像，我编写了一个简单的 Dockerfile 自己构建容器：

dockerfile 复制代码

FROM python:3.11-slim
RUN pip install --no-cache-dir vllm-playground
EXPOSE 7860
ENV VLLM_URL=http://vllm:8000
CMD ["vllm-playground", "--host", "0.0.0.0", "--port", "7860"]

并在同一个 docker-compose.yml 中加入服务，共享 docker_default 网络。启动后访问 http://<工作站IP>:7860 即可直接与模型对话，同时观察基础吞吐量指标。更详细的 GPU 显存、请求并发等指标则通过访问 http://<工作站IP>:18000/metrics 获取。

5. 注意事项

驱动版本与 CUDA 必须严格匹配：NVIDIA 575 驱动最低要求 CUDA 12.9，旧版驱动无法使用新 Toolkit，反之亦然。
Secure Boot：如果开启了 Secure Boot，安装第三方驱动（.run 文件）需要注册 MOK 密钥，否则内核将拒绝加载模块。若工作站处于安全环境中，可考虑直接关闭 Secure Boot 简化流程。
卸载旧驱动必须彻底 ：新旧驱动混合残留是导致 nvidia-smi 失败的主要元凶之一。建议使用多种方式（apt、runfile 卸载、手动清理）确保干净。
Docker 配置检查 ：在升级系统或驱动后，务必检查 Docker 的 daemon.json 和 NVIDIA Container Toolkit 是否正确安装，并确保容器重启策略不会造成死循环。
容器化推荐 ：实际上，运行 vLLM 等应用不需要在宿主机安装 CUDA Toolkit，仅需安装 NVIDIA 驱动和 NVIDIA Container Toolkit。镜像内已包含所需的 CUDA 运行时，这样能最大程度避免版本冲突。本次安装 Toolkit 主要是为了本机编译调试。
显存优化 ：双 RTX 3090 虽然总显存 48 GB，但在张量并行模式下，每张卡都需要为模型权重和 KV Cache 留出空间。可通过 --gpu-memory-utilization 和 --max-model-len 精细调节，避免 OOM。
模型文件完整性 ：确保下载的 AWQ 格式模型包含所有必要文件（如 config.json、tokenizer.json、.safetensors 等），否则 vLLM 将无法加载。

整体感受就是对于个人用户，ollama真的是非常友好，ollama run就可以自动拉取大模型并且运行了。

附：vLLM 与 Qwen3.6-35B-INT4 简介

vLLM

vLLM 是一个高性能的大语言模型推理和服务引擎，支持张量并行、连续批处理、PagedAttention 等特性，能够显著提升 GPU 利用率和吞吐量。它原生支持 OpenAI 兼容 API，可以无缝对接现有生态。目前 vLLM 对量化模型的支持（如 AWQ、GPTQ）也非常成熟。

Qwen3.6-35B-A3B-AWQ

这是基于通义千问 Qwen3.6 架构的 35B 参数 MoE（混合专家）模型 ，实际激活参数约 3B，经过 4-bit AWQ 量化后，模型文件大小约 20 GB。得益于 MoE 设计，它在保持较高推理质量的同时大幅降低了计算量和显存需求，非常适合消费级显卡（如 RTX 3090）的本地部署。在 vLLM 中配合张量并行和量化推理，可以流畅支持 16K 甚至更长的上下文。

记一次在双 RTX 3090 工作站上部署 vLLM 与 Qwen3.6-35B-AWQ 的实战记录