模型格式 × GPU × 显存 × vLLM 参数模板对照表

一、快速选型总表

你拿到模型 + GPU → 直接抄参数

模型格式 量化 GPU 架构 显存 推荐模型规模 vLLM 可用性 结论
FP16 A100/H100 ≥40G 7B--72B ⭐⭐⭐⭐⭐ 最稳
BF16 A100/H100 ≥40G 13B--72B ⭐⭐⭐⭐⭐ 最优
AWQ 4bit RTX4090 24G 7B--14B ⭐⭐⭐⭐⭐ ⭐首选
AWQ 4bit A10 / L4 24G 7B--14B ⭐⭐⭐⭐⭐
GPTQ 4bit RTX3090 24G 7B--13B ⭐⭐⭐ 可用
GPTQ 4bit A100 40G 13B--33B ⭐⭐⭐ 有坑
bnb 4/8bit 任意 ≥16G ≤7B ⭐⭐ 不推荐
GGUF 4bit 任意 任意 任意 不支持

二、按「GPU → 显存 → 模型格式」展开


① RTX 4090 / 3090(24GB,消费卡主流)

✅ 推荐:AWQ 4bit

7B / 8B(最稳)
bash 复制代码
vllm serve Qwen2-7B-AWQ \
  --quantization awq \
  --dtype float16 \
  --max-model-len 8192
项目 数值
权重显存 ~5GB
KV Cache ~6--8GB
总占用 ~14GB
并发

14B(极限但可跑)
bash 复制代码
vllm serve Qwen2-14B-AWQ \
  --quantization awq \
  --dtype float16 \
  --max-model-len 4096

⚠️ 关键限制:

  • 必须降 max_model_len
  • 避免 batch 过大

⚠️ GPTQ(不推荐但可用)

bash 复制代码
vllm serve LLaMA-2-7B-GPTQ \
  --quantization gptq \
  --dtype float16 \
  --enforce-eager
问题 原因
吞吐下降 eager mode
FlashAttn 关闭 kernel 不支持
稳定性差 GPTQ 权重多样

② A10 / L4(24GB,云上性价比)

标准推荐:AWQ

bash 复制代码
vllm serve Qwen2-7B-AWQ \
  --quantization awq \
  --dtype float16 \
  --max-model-len 8192
模型 可行性
7B
13B ⚠️
14B ⚠️ 需 TP

❌ 不推荐 bnb

原因:

  • kernel 非最优
  • 多请求抖动明显

③ A100 40GB(企业部署主力)


FP16 / BF16(最稳 + 最高吞吐)

13B
bash 复制代码
vllm serve Qwen2-13B \
  --dtype bfloat16 \
  --max-model-len 16384
33B
bash 复制代码
vllm serve Qwen2-32B \
  --dtype bfloat16 \
  --max-model-len 8192

AWQ 4bit(显存友好)

bash 复制代码
vllm serve Qwen2-32B-AWQ \
  --quantization awq \
  --dtype float16
优点 说明
显存 ↓50%
吞吐 ≈ FP16
稳定 ⭐⭐⭐⭐⭐

④ A100 / H100 多卡(80GB × N)


72B / 70B(主流大模型)

bash 复制代码
vllm serve Qwen2-72B \
  --dtype bfloat16 \
  --tensor-parallel-size 8 \
  --max-model-len 8192

KV Cache 优化(H100 专属)

bash 复制代码
--kv-cache-dtype fp8
效果
KV Cache ↓40%
精度 几乎无损
要求 H100

⑤ L40 / L40S(48GB)

13B / 32B AWQ

bash 复制代码
vllm serve Qwen2-32B-AWQ \
  --quantization awq \
  --dtype float16 \
  --max-model-len 8192

三、参数作用速查表(防误用)

参数 控制什么 用错后果
--quantization 加载哪种 kernel 启动失败
--dtype 计算精度 性能 / 精度
--max-model-len KV Cache 大小 OOM
--tensor-parallel-size 多卡切分 通信瓶颈
--enforce-eager 禁用 FlashAttn 吞吐暴跌
--kv-cache-dtype KV 精度 显存/速度

四、工程结论

vLLM 的部署不是"模型能不能跑",而是"参数是否匹配硬件物理现实"

推荐优先级:

复制代码
AWQ 4bit  >  FP16/BF16  >  GPTQ  >>>  bnb
相关推荐
~kiss~6 天前
高性能大语言模型推理与服务框架(推理引擎)vLLM
人工智能·语言模型·vllm
hit56实验室6 天前
明明已经把vllm被强制kill了,但是仍然占用GPU显存
vllm
陈 洪 伟7 天前
大模型推理引擎vLLM(14): 什么是MLA多头潜在注意力
vllm·mla
陈 洪 伟8 天前
大模型推理引擎vLLM(12): vLLM Prefix Caching以及eviction的相关问题和代码
vllm·prefix caching
深刻如此8 天前
Qwen2.5-7B-Instruct实战教程:Chainlit集成WebSocket实时通信增强
大语言模型·文本生成·vllm·chainlit
长路 ㅤ   9 天前
快速了解VLLM推理引擎
模型部署·vllm·xinference·推理引擎·ai框架
陈 洪 伟9 天前
大模型推理引擎vLLM(9): vLLM 基本代码结构
vllm
SmartBrain9 天前
技术总结:VLLM部署Qwen3模型的详解
开发语言·人工智能·算法·vllm
陈 洪 伟9 天前
大模型推理引擎vLLM(10): vLLM 分布式推理源码结构解析
分布式·vllm
鱼总美签11 天前
ClawdBot保姆级教学:解决Gateway not reachable错误的5种方法
ai助手·vllm·本地大模型·clawdbot