VLLM部署

一、安装服务器

1、系统:Ubuntu 22.04.5

2、驱动:英伟达cuda 12.4

3、容器:docker ce26.x:

4、nvidia-container-toolkit:

操作 命令
查是否安装 `dpkg -l
查版本 nvidia-container-cli --version
端到端测试 docker run --rm --gpus all nvidia/cuda:12.4-base-ubuntu22.04 nvidia-smi
检查 Docker 配置 cat /etc/docker/daemon.json

5、链接国外的docke镜像:register Mirrors

bash 复制代码
vim /etc/docker/daemon.json
bash 复制代码
{
    "registry-mirrors": [
            "https://docker.211678.top",
            "https://docker.1panel.live",
            "https://hub.rat.dev",
            "https://docker.m.daocloud.io",
            "https://do.nark.eu.org",
            "https://dockerpull.com",
            "https://dockerproxy.cn",
            "https://docker.awsl9527.cn"
      ]
}

创建 docker 组(如果不存在)并添加用户:

bash 复制代码
sudo usermod -aG docker $USER

激活组权限:

你需要注销并重新登录,或者运行以下命令让更改立即生效(无需重启电脑)

bash 复制代码
newgrp docker

二、下面安装:VLLM:

bash 复制代码
docker pull vllm/vllm-openai:latest

可以参考:https://github.com/vllm-project/vllm

bash 复制代码
 mkdir -p /home/hynx/models/Qwen2.5-7B-Instruct

hynx@hynx:~$ cd /home/hynx/models/Qwen2.5-7B-Instruct


hynx@hynx:~$ python3 -c "from modelscope import snapshot_download; snapshot_download('Qwen/Qwen2.5-7B-Instruct', local_dir='.')"



docker run -d   --name vllm_qwen   --runtime nvidia   --gpus all   -p 8089:8089   -v /home/hynx/models/Qwen2.5-7B-Instruct:/app/model   vllm/vllm-openai:latest   --model /app/model   --host 0.0.0.0   --port 8089   --dtype auto   --max-model-len 4096
  1. qwen3.5的合适大模型9B,

创建一个清晰明确的目录

mkdir -p /home/hynx/models/Qwen3.5-9B

进入该目录

cd /home/hynx/models/Qwen3.5-9B

下载模型

python3 -c "from modelscope import snapshot_download; snapshot_download('Qwen/Qwen3.5-9B', local_dir='.')"

#利用docker 运行大模型

hynx@hynx:~$ docker run -d --name vllm_qwen3.59 --runtime nvidia --gpus all -p 8089:8089 -v /home/hynx/models/Qwen3.5-9B:/app/model vllm/vllm-openai:latest --model /app/model --host 0.0.0.0 --port 8089 --dtype auto --max-model-len 4096

验证大模型效果

curl http://localhost:8089/v1/completions \ -H "Content-Type: application/json" \ -d '{ "model": "/app/model", "prompt": "Hello, how are you?", "max_tokens": 20 }'

2.qwen3.5:122B

3.qwen3:8B embedding

  1. qwen3: 8B rerank

  2. minerU 模型

三、

相关推荐
谢白羽12 小时前
多集群/分布式 LLM 推理方案全景:2026 年选型指南
分布式·vllm·sglang·llm-d
x²+(y-√³x²)²=12 天前
Linux 或者 Ubuntu 离线使用 vllm启动大模型
linux·ubuntu·vllm
HyperAI超神经3 天前
【TVM教程】理解 Relax 抽象层
人工智能·深度学习·学习·机器学习·gpu·tvm·vllm
晨欣3 天前
单卡 48GB 实测:Gemma 4 26B A4B、Gemma 4 31B、gpt-oss-20b 三模型部署与并发对比
google·openai·nvidia·vllm·llama.cpp·gpt-oss-20b·gemma4
weixin_6683 天前
在DGX-Spark上多模态模型gemma-4-31B-it vLLM部署
vllm
认真的薛薛4 天前
GPU运维:vllm启动大模型参数解析
运维·数据库·vllm
handsomestWei4 天前
KV Cache与vLLM、SGLang推理框架
vllm·推理框架·kv cache·sglang
lin_dec+5 天前
KV Cache:大模型推理加速的关键技术
nlp·transformer·vllm·大模型推理·kv cache
deephub6 天前
从零构建 Mini-vLLM:KV-Cache、动态批处理与分布式推理全流程
人工智能·python·深度学习·大语言模型·vllm
西西弗Sisyphus7 天前
大模型运行的 enforce_eager 参数
langchain·prompt·transformer·vllm·enforce_eager