vLLM 全部8种部署方式(按从简单到企业级排序,附适用场景+最简命令)

目录

一、原生 Python 脚本部署

适用:本地开发、调试、二次开发、嵌入RAG/Agent项目

特点:最灵活,可自定义推理逻辑、接入业务代码

最简用法

bash 复制代码
  
pip install vllm
python 复制代码
  
from vllm import LLM, SamplingParams

llm = LLM(model="Qwen-7B-Chat", quantization="AWQ")
sp = SamplingParams(max_tokens=512)
outputs = llm.generate("你好", sampling_params=sp)
print(outputs[0].outputs[0].text)

二、命令行直接启 API 服务(无代码)

适用:快速搭OpenAI兼容接口、临时测试、内网小服务

特点:一条命令启动,自动暴露接口,无需写代码

最简命令

bash 复制代码
  
vllm serve Qwen-7B-Chat \
  --port 8000 \
  --quantization awq \
  --tensor-parallel-size 1

自动兼容 OpenAI 接口: http://ip:8000/v1

三、官方 Docker 镜像部署(单机生产首选)

适用:单机GPU服务器、私有化部署、环境统一隔离

特点:不用装CUDA、不用配依赖,镜像自带运行环境

最简命令

bash 复制代码
  
docker pull vllm/vllm-openai:latest

docker run -d \
  --gpus all \
  -p 8000:8000 \
  -v /本地模型目录:/model \
  vllm/vllm-openai:latest \
  --model /model/Qwen-7B-Chat \
  --quantization awq

四、Docker Compose 部署

适用:本地多服务组合(vLLM+RAG+前端)、小团队运维

特点:配置文件管理,一键启停、方便迁移

docker-compose.yml 核心:

yaml 复制代码
  
services:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - ./model:/model
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
 

启动: docker-compose up -d

五、Kubernetes K8s 部署(企业级生产)

适用:线上高并发、多GPU节点、自动扩缩容、灰度发布

特点:集群化管理、故障自愈、负载均衡、多模型统一调度

核心能力

  • 限制GPU显存/CPU资源
  • 多副本负载均衡
  • 自动根据QPS扩缩容
  • 模型挂载共享存储

六、内网离线部署(无外网环境)

适用:政务、金融、涉密内网,不能联网

做法

  1. 外网下载vLLM镜像、模型权重、pip离线包
  2. 打包镜像导入内网Docker
  3. 内网本地加载模型,不走外网下载
    核心:全程离线,模型和镜像本地存量

七、多机多卡分布式部署(70B+超大模型)

适用:70B、110B、MoE大模型,单张GPU放不下

特点:张量并行TP、流水线并行PP,拆分模型到多卡/多机

最简命令(单机多卡)

bash 复制代码
  
vllm serve Qwen-72B-Chat \
  --tensor-parallel-size 4  # 用4张GPU拆分模型

多机需配置分布式主机地址、节点列表。

八、负载均衡+反向代理部署(高可用线上)

适用:多台vLLM实例集群、对外统一服务入口

架构:

用户请求 → Nginx/Ingress → 多台vLLM实例

能力:流量分发、限流、熔断、接口统一域名、隐藏后端实例

部署方式快速选型

  1. 个人测试/开发:Python脚本 / 命令行serve
  2. 单机私有化上线:Docker 部署
  3. 多服务组合本地运维:Docker Compose
  4. 超大模型70B+:多机多卡分布式
  5. 企业生产、高并发、集群:K8s + 负载均衡
  6. 涉密内网:离线镜像部署
相关推荐
IT_陈寒26 分钟前
React的useState居然还有这种坑?我差点删库跑路
前端·人工智能·后端
用户413062258291 小时前
给AI回答加引用角标citation:RAG前端实现
人工智能
米小虾2 小时前
WAIC 2026 倒计时30天:300+ AI 产品全球首发,今年看点全解析
人工智能
码上天下2 小时前
多模态Agent上传图片:前端压缩格式与预览实战
人工智能
姗姗来迟了2 小时前
Vue3封装可复用AI对话组件:一次抽象复盘
人工智能
怕浪猫2 小时前
哪些软件对 Chrome DevTools Protocol 频繁使用
人工智能·架构·前端框架
leo在掘金4 小时前
从DeepSeek 510亿融资到GitHub 33K Star开源项目:这周的技术生态发生了什么?
人工智能
小姜前线技术5 小时前
AI流式渲染打字机效果抖动?节流方案踩坑实录
人工智能