vLLM 全部8种部署方式(按从简单到企业级排序,附适用场景+最简命令)

目录

一、原生 Python 脚本部署

适用:本地开发、调试、二次开发、嵌入RAG/Agent项目

特点:最灵活,可自定义推理逻辑、接入业务代码

最简用法

bash 复制代码
  
pip install vllm
python 复制代码
  
from vllm import LLM, SamplingParams

llm = LLM(model="Qwen-7B-Chat", quantization="AWQ")
sp = SamplingParams(max_tokens=512)
outputs = llm.generate("你好", sampling_params=sp)
print(outputs[0].outputs[0].text)

二、命令行直接启 API 服务(无代码)

适用:快速搭OpenAI兼容接口、临时测试、内网小服务

特点:一条命令启动,自动暴露接口,无需写代码

最简命令

bash 复制代码
  
vllm serve Qwen-7B-Chat \
  --port 8000 \
  --quantization awq \
  --tensor-parallel-size 1

自动兼容 OpenAI 接口: http://ip:8000/v1

三、官方 Docker 镜像部署(单机生产首选)

适用:单机GPU服务器、私有化部署、环境统一隔离

特点:不用装CUDA、不用配依赖,镜像自带运行环境

最简命令

bash 复制代码
  
docker pull vllm/vllm-openai:latest

docker run -d \
  --gpus all \
  -p 8000:8000 \
  -v /本地模型目录:/model \
  vllm/vllm-openai:latest \
  --model /model/Qwen-7B-Chat \
  --quantization awq

四、Docker Compose 部署

适用:本地多服务组合(vLLM+RAG+前端)、小团队运维

特点:配置文件管理,一键启停、方便迁移

docker-compose.yml 核心:

yaml 复制代码
  
services:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - ./model:/model
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
 

启动: docker-compose up -d

五、Kubernetes K8s 部署(企业级生产)

适用:线上高并发、多GPU节点、自动扩缩容、灰度发布

特点:集群化管理、故障自愈、负载均衡、多模型统一调度

核心能力

  • 限制GPU显存/CPU资源
  • 多副本负载均衡
  • 自动根据QPS扩缩容
  • 模型挂载共享存储

六、内网离线部署(无外网环境)

适用:政务、金融、涉密内网,不能联网

做法

  1. 外网下载vLLM镜像、模型权重、pip离线包
  2. 打包镜像导入内网Docker
  3. 内网本地加载模型,不走外网下载
    核心:全程离线,模型和镜像本地存量

七、多机多卡分布式部署(70B+超大模型)

适用:70B、110B、MoE大模型,单张GPU放不下

特点:张量并行TP、流水线并行PP,拆分模型到多卡/多机

最简命令(单机多卡)

bash 复制代码
  
vllm serve Qwen-72B-Chat \
  --tensor-parallel-size 4  # 用4张GPU拆分模型

多机需配置分布式主机地址、节点列表。

八、负载均衡+反向代理部署(高可用线上)

适用:多台vLLM实例集群、对外统一服务入口

架构:

用户请求 → Nginx/Ingress → 多台vLLM实例

能力:流量分发、限流、熔断、接口统一域名、隐藏后端实例

部署方式快速选型

  1. 个人测试/开发:Python脚本 / 命令行serve
  2. 单机私有化上线:Docker 部署
  3. 多服务组合本地运维:Docker Compose
  4. 超大模型70B+:多机多卡分布式
  5. 企业生产、高并发、集群:K8s + 负载均衡
  6. 涉密内网:离线镜像部署
相关推荐
ShareCreators1 小时前
AI悖论——热情高涨,价值难彰
人工智能·汽车·blueberry
AI医影跨模态组学1 小时前
如何将多模态MRI影像特征与脑膜瘤细胞增殖标志物Ki-67建立关联,并进一步解释其与肿瘤生长速率、无进展生存期的机制联系
人工智能·论文·医学·医学影像·影像组学
tiger从容淡定是人生1 小时前
AI替代软件战略(一):从 CCleaner 到 MCP 架构重构 —— TigerCleaner 的工程实践
人工智能·重构·架构·c#·mcp
做cv的小昊1 小时前
【TJU】研究生应用统计学课程笔记(6)——第二章 参数估计(2.4 区间估计)
人工智能·笔记·线性代数·算法·机器学习·数学建模·概率论
Carl_奕然1 小时前
【智能体】Agent的四种设计模式之:ReAct
人工智能·设计模式·语言模型
小白64021 小时前
AI辅助设计Flutter蓝牙自动连接系统
人工智能·flutter
DeepReinforce1 小时前
二、AI量化投资:沪市主板A股所有股票20250430到20260430双均线(MA5/MA20)回测结果
人工智能·量化
2zcode1 小时前
基于深度学习的口腔疾病图像识别系统(UI界面+改进算法+数据集+训练代码)
人工智能·深度学习·算法