VLLM auto DL环境配置

1 安装 UV 工具

你现在是 AutoDL 容器(root 用户、base conda 环境),报错 bash: uv: command not found 就是:还没装 uv,或者装了但不在 PATH 里。下面直接给你在这个容器里能一步到位的安装命令

powershell 复制代码
pip install uv # 在 AutoDL 里最快安装(用 pip,最简单)

uv --version # 装完后看一下

1 创建 UV 环境

VLLM 官网安装教程

推荐使用uv这款高性能 Python 环境管理工具来创建和管理 Python 运行环境。请参照官方文档完成 uv 的安装。安装完成后,可通过以下命令新建 Python 环境:

补充说明

uv:当下热门的 Python 环境 / 包管理工具,速度远优于传统的 venv、pip、conda,一般直接保留原名uv即可。

environment:结合语境译为运行环境 / 虚拟环境(Python 领域通用叫法)。

powershell 复制代码
uv venv --python 3.12 --seed --managed-python
source .venv/bin/activate

1:创建一个 Python 3.12 虚拟环境

每个参数含义:

uv venv:用 uv 创建虚拟环境

--python 3.12:指定使用 Python 3.12 版本

--seed:自动在环境里预装 pip(方便兼容老工具)

--managed-python:让 uv 自动下载、管理 Python 解释器(不用你自己装 Python)

2: 激活刚才创建的虚拟环境(进入这个独立环境)

激活后效果:

你用的 python、pip 都来自 .venv

安装的包只会存在这个环境里,不会污染系统

终端前面会出现 (.venv) 标志

2 在虚拟环境里面安装VLLM

建议使用 uv,通过 --torch-backend=auto 参数(或环境变量 UV_TORCH_BACKEND=auto),让工具在运行时检测已安装的 CUDA 驱动版本,自动匹配对应的 PyTorch 镜像源。

powershell 复制代码
uv pip install vllm --torch-backend=auto

如果是在国内:建议使用阿里镜像

powershell 复制代码
uv pip install vllm --torch-backend=auto \
  -i https://mirrors.aliyun.com/pypi/simple/ \
  --trusted-host mirrors.aliyun.com

-i:指定阿里云 PyPI 源

--trusted-host:信任阿里云域名,避免 SSL 报错

3 模型下载 (ModelScope )

AutoDL 国内环境通常 HuggingFace 不通,ModelScope 更稳。先装工具:

powershell 复制代码
source /root/.venv/bin/activate
uv pip install modelscope

下载到数据盘,避免系统盘爆:

powershell 复制代码
mkdir -p /root/autodl-tmp/models

modelscope download \
  --model Qwen/Qwen3-0.6B \
  --local_dir /root/autodl-tmp/models/Qwen3-0.6B

4 启动VLLM

powershell 复制代码
vllm serve /root/autodl-tmp/models/Qwen3-0.6B \
  --served-model-name Qwen/Qwen3-0.6B \
  --host 127.0.0.1 \
  --port 8000 \
  --max-model-len 2048

MODEL=Qwen/Qwen3-0.6B定义要跑的模型(轻量小模型,你的显卡轻松跑)

vllm serve $MODEL启动 vLLM API 服务(兼容 OpenAI 接口格式)

--host 127.0.0.1只允许本机访问(安全)

--port 8000服务端口 8000

--max-model-len 2048最大上下文长度 2048(对 0.6B 模型非常合适)

5 另起terminal 测试

返回模型列表之后

powershell 复制代码
curl http://127.0.0.1:8000/v1/models

curl一个命令行工具,用来发送网络请求、获取服务器返回的数据。

http://127.0.0.1:8000

127.0.0.1 = 本机

8000 = 服务运行的端口

→ 意思是:访问你自己电脑上运行的 AI 服务

/v1/models这是 OpenAI 兼容的 API 接口作用:列出当前可用的 AI 模型(比如 llama3、qwen、gemma 等)

powershell 复制代码
curl http://127.0.0.1:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3-0.6B",
    "prompt": "Explain paged attention in one paragraph.",
    "max_tokens": 64,
    "temperature": 0
  }'

vLLM 服务完全正常运行,API 也能调用,但是模型生成的内容乱七八糟,全是重复的 - Quora,这是典型的小模型(0.6B)+ 英文提示词 + 温度 = 0 导致的生成崩坏。

问题原因

模型太小:Qwen3-0.6B 是超小参数量模型,英文能力很弱,很容易输出乱码 / 重复内容

温度 = 0:完全确定性生成,错了就一路错到底

用了 completions 接口:这个接口是续写模式,小模型更容易跑偏

方法 1:用中文对话接口(推荐,效果最好)

powershell 复制代码
curl http://127.0.0.1:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3-0.6B",
    "messages": [{"role": "user", "content": "请解释一下分页注意力"}]
  }'
相关推荐
AI小百科12 天前
llama.cpp vs vLLM:深度解析与选型指南
llama·vllm
IRevers12 天前
【大模型】Gemma4在ROCm和vLLM部署
人工智能·pytorch·深度学习·大模型·datawhale·vllm·amdev
下班走回家13 天前
本地部署大模型的三种方式:Ollama vs vLLM vs llama.cpp
人工智能·llama·vllm
花间相见13 天前
【大模型部署01】—— vLLM 部署大模型服务实操:从 0 到 1 搭建 OpenAI 兼容 API
vllm
有来有去952713 天前
【训推框架】Vime-大规模 LLM/VLM 强化学习训练框架
人工智能·深度学习·语言模型·gpu算力·vllm
安如衫14 天前
【Hello-ROCm】vLLM 跑通 Gemma4-E4B
datawhale·vllm·amdev
毒爪的小新14 天前
Linux 环境极速部署 vLLM:从零搭建生产级大模型推理服务
linux·人工智能·ai·语言模型·vllm
像风一样自由202014 天前
17.推理框架横评:vLLM / TGI / TensorRT-LLM / SGLang 全面对比
人工智能·大模型·vllm·sglang
rebibabo15 天前
KV Cache 与 PagedAttention 详解:理论推导 + RTX 3090 实测数据
人工智能·vllm·推理加速·大模型部署·kvcache