GPU运维:vllm启动大模型参数解析

用 vLLM 启动一个大模型 API 服务,相当于把 DeepSeek 大模型变成一个可调用的接口(类似 OpenAI API)。


完整命令拆解(超清晰版)

bash 复制代码
vllm serve /root/autodl-tmp/Models/DeepSeek-R1-0528/ \
           --served-model-name DeepSeek-R1 \
           --tensor-parallel-size 1 \
           --gpu-memory-utilization 0.85 \
           --max-model-len 8192 \
           --host 127.0.0.1 \
           --port 8000 \
           --api-key magedu.com

每个参数详细解释

1. vllm serve

  • 作用 :vLLM 的启动命令,启动模型 API 服务
  • 意思:把模型跑起来,提供 HTTP 接口供外部调用(聊天、续写、问答)

2. /root/autodl-tmp/Models/DeepSeek-R1-0528/

  • 作用模型文件所在的本地路径
  • 必须是你下载好模型的文件夹
  • 你这里就是 DeepSeek-R1 模型的存放位置

3. --served-model-name DeepSeek-R1

  • 作用 :给启动的服务起一个模型名字
  • 调用 API 时需要用这个名字
  • 比如请求时要传:model: "DeepSeek-R1"

4. --tensor-parallel-size 1

  • 作用张量并行(多卡并行)
  • 数字 = 使用几张 GPU
  • 你写 1 = 只用 1 张显卡
  • 如果是 2 张卡就写 2,以此类推

5. --gpu-memory-utilization 0.85

  • 作用模型最多占用多少显存
  • 0.85 = 最多用 85% 的显存
  • 目的:
    • 不把显存吃满
    • 防止爆显存
    • 留一点给系统

6. --max-model-len 8192

  • 作用模型最大上下文长度
  • 8192 = 最多支持 8192 个 token(约 6000 汉字)
  • 超过会被截断
  • 模型支持多长就设多长(DeepSeek-R1 支持很长,你这里设 8k)

7. --host 127.0.0.1

  • 作用服务监听地址
  • 127.0.0.1 = 只能本机访问
  • 如果你想让外部机器访问,要改成 0.0.0.0

8. --port 8000

  • 作用API 服务端口号
  • 访问地址:http://127.0.0.1:8000

9. --api-key magedu.com

  • 作用API 密钥
  • 调用接口时必须带上这个 key 才能访问
  • 相当于密码,防止别人乱调用你的模型

一句话总结这条命令

用 vLLM 在本机 8000 端口启动 DeepSeek-R1 模型服务,单卡运行,最多占用 85% 显存,支持 8k 上下文,只有本机能访问,调用需要密钥 magedu.com


最常用的修改建议(你可能会用到)

  1. 想让外部机器访问

    复制代码
    --host 0.0.0.0
  2. 模型更长上下文

    复制代码
    --max-model-len 32768
  3. 用多张显卡

    复制代码
    --tensor-parallel-size 2

总结

  • vllm serve:启动模型 API
  • 路径:模型位置
  • served-model-name:API 用的模型名
  • tensor-parallel-size:用几张卡
  • gpu-memory-utilization:显存占用比例
  • max-model-len:最大上下文长度
  • host/port:访问地址
  • api-key:接口密码

我用最直白、运维能听懂 的话,给你讲清楚:vLLM 多卡并行(tensor-parallel-size > 1)到底有什么用、好处是什么、什么时候必须开。


多卡并行(tensor-parallel-size=N)核心好处

  1. 能跑更大的模型

    • 单卡装不下 7B/14B/32B/70B 模型
    • 多卡 = 把模型切分到多张显卡上一起跑
    • 你卡越多,能跑的模型越大
  2. 支持更长上下文(context length)

    • 单卡显存有限,max-model-len 设不大
    • 多卡 = 总显存变大
    • 你可以开到 16k、32k、64k、128k 而不爆显存
  3. 推理速度更快、吞吐量更高

    • 多张卡同时计算
    • 每秒生成 token 更多
    • 并发用户多时,不卡、不排队
  4. 不爆显存,服务更稳

    • 单卡跑大模型很容易 OOM
    • 多卡分担压力,服务稳定很多
    • 适合生产环境、长期挂服务

用你这条命令举例

你现在是:

复制代码
--tensor-parallel-size 1

意思:只用 1 张卡

如果改成:

复制代码
--tensor-parallel-size 2

就变成:

  • 模型分到 2 张 GPU
  • 总显存 ≈ 两张卡加起来
  • 速度更快、能跑更大模型、更长上下文

什么时候必须开多卡?

  • 模型 ≥ 14B,单卡跑不动
  • 想跑 8k、16k、32k 上下文
  • 高并发(多人同时调用)
  • 生产环境,要稳定不崩

极简总结

多卡并行 =
更大模型 + 更长上下文 + 更快速度 + 更稳服务


相关推荐
ss27313 小时前
食谱推荐系统功能测试如何写?
java·数据库·spring boot·功能测试
l1t14 小时前
DeepSeek总结的数据库外部表
数据库
m0_6742946414 小时前
如何编写SQL存储过程性能对比_记录执行时间评估优化效果
jvm·数据库·python
倔强的石头10614 小时前
【Linux指南】基础IO系列(八):实战衔接 —— 给微型 Shell 添加完整重定向功能
linux·运维·服务器
014-code14 小时前
CompletableFuture 实战模板(超时、组合、异常链处理)
java·数据库
运气好好的14 小时前
怎样开启phpMyAdmin的操作审计日志_记录每条执行的SQL
jvm·数据库·python
观北海14 小时前
AiScan-N:AI全自动化渗透测试工具的深度技术解析
运维·自动化
Ujimatsu15 小时前
虚拟机安装Ubuntu 26.04.x及其常用软件(2026.4)
linux·运维·ubuntu
それども15 小时前
DELETE 和 TRUNCATE TABLE区别
java·数据库·mysql
wenha15 小时前
数据库隔离级别
数据库·mysql·sqlserver·隔离级别