模型格式 × GPU × 显存 × vLLM 参数模板对照表

一、快速选型总表

你拿到模型 + GPU → 直接抄参数

模型格式 量化 GPU 架构 显存 推荐模型规模 vLLM 可用性 结论
FP16 A100/H100 ≥40G 7B--72B ⭐⭐⭐⭐⭐ 最稳
BF16 A100/H100 ≥40G 13B--72B ⭐⭐⭐⭐⭐ 最优
AWQ 4bit RTX4090 24G 7B--14B ⭐⭐⭐⭐⭐ ⭐首选
AWQ 4bit A10 / L4 24G 7B--14B ⭐⭐⭐⭐⭐
GPTQ 4bit RTX3090 24G 7B--13B ⭐⭐⭐ 可用
GPTQ 4bit A100 40G 13B--33B ⭐⭐⭐ 有坑
bnb 4/8bit 任意 ≥16G ≤7B ⭐⭐ 不推荐
GGUF 4bit 任意 任意 任意 不支持

二、按「GPU → 显存 → 模型格式」展开


① RTX 4090 / 3090(24GB,消费卡主流)

✅ 推荐:AWQ 4bit

7B / 8B(最稳)
bash 复制代码
vllm serve Qwen2-7B-AWQ \
  --quantization awq \
  --dtype float16 \
  --max-model-len 8192
项目 数值
权重显存 ~5GB
KV Cache ~6--8GB
总占用 ~14GB
并发

14B(极限但可跑)
bash 复制代码
vllm serve Qwen2-14B-AWQ \
  --quantization awq \
  --dtype float16 \
  --max-model-len 4096

⚠️ 关键限制:

  • 必须降 max_model_len
  • 避免 batch 过大

⚠️ GPTQ(不推荐但可用)

bash 复制代码
vllm serve LLaMA-2-7B-GPTQ \
  --quantization gptq \
  --dtype float16 \
  --enforce-eager
问题 原因
吞吐下降 eager mode
FlashAttn 关闭 kernel 不支持
稳定性差 GPTQ 权重多样

② A10 / L4(24GB,云上性价比)

标准推荐:AWQ

bash 复制代码
vllm serve Qwen2-7B-AWQ \
  --quantization awq \
  --dtype float16 \
  --max-model-len 8192
模型 可行性
7B
13B ⚠️
14B ⚠️ 需 TP

❌ 不推荐 bnb

原因:

  • kernel 非最优
  • 多请求抖动明显

③ A100 40GB(企业部署主力)


FP16 / BF16(最稳 + 最高吞吐)

13B
bash 复制代码
vllm serve Qwen2-13B \
  --dtype bfloat16 \
  --max-model-len 16384
33B
bash 复制代码
vllm serve Qwen2-32B \
  --dtype bfloat16 \
  --max-model-len 8192

AWQ 4bit(显存友好)

bash 复制代码
vllm serve Qwen2-32B-AWQ \
  --quantization awq \
  --dtype float16
优点 说明
显存 ↓50%
吞吐 ≈ FP16
稳定 ⭐⭐⭐⭐⭐

④ A100 / H100 多卡(80GB × N)


72B / 70B(主流大模型)

bash 复制代码
vllm serve Qwen2-72B \
  --dtype bfloat16 \
  --tensor-parallel-size 8 \
  --max-model-len 8192

KV Cache 优化(H100 专属)

bash 复制代码
--kv-cache-dtype fp8
效果
KV Cache ↓40%
精度 几乎无损
要求 H100

⑤ L40 / L40S(48GB)

13B / 32B AWQ

bash 复制代码
vllm serve Qwen2-32B-AWQ \
  --quantization awq \
  --dtype float16 \
  --max-model-len 8192

三、参数作用速查表(防误用)

参数 控制什么 用错后果
--quantization 加载哪种 kernel 启动失败
--dtype 计算精度 性能 / 精度
--max-model-len KV Cache 大小 OOM
--tensor-parallel-size 多卡切分 通信瓶颈
--enforce-eager 禁用 FlashAttn 吞吐暴跌
--kv-cache-dtype KV 精度 显存/速度

四、工程结论

vLLM 的部署不是"模型能不能跑",而是"参数是否匹配硬件物理现实"

推荐优先级:

复制代码
AWQ 4bit  >  FP16/BF16  >  GPTQ  >>>  bnb
相关推荐
技术路上的探险家2 天前
vLLM常用启动参数的详细解释
python·大模型·qwen·vllm
每天都要写算法(努力版)3 天前
【混合注意力模型的 KV Cache 设计与统一管理实践解析】
llm·vllm·kv cache
Token_w3 天前
vLLM-Ascend 模型在昇腾 NPU 上的开发、调试与性能优化
性能优化·vllm
HyperAI超神经3 天前
【vLLM 学习】Profiling
人工智能·深度学习·学习·cpu·gpu·编程语言·vllm
InfraTech5 天前
vLLM V1 Scheduler的调度逻辑&优先级分析
大模型·vllm
T-OPEN5 天前
深入探索vLLM-Ascend:开源仓库结构、环境部署与基础配置实践
vllm
16Miku5 天前
Qwen3-8B vLLM 部署实践教程(AutoDL 平台)
人工智能·ai·autodl·vllm·部署大模型·qwen3-8b
陈橘又青5 天前
vLLM-Ascend推理部署与性能调优深度实战指南:架构解析、环境搭建与核心配置
人工智能·后端·ai·架构·restful·数据·vllm
算力魔方AIPC7 天前
通过 PaddleOCR CLI 安装并启动 vLLM
ocr·paddle·vllm·paddle ocr·算力魔方