模型格式 × GPU × 显存 × vLLM 参数模板对照表

一、快速选型总表

你拿到模型 + GPU → 直接抄参数

模型格式	量化	GPU 架构	显存	推荐模型规模	vLLM 可用性	结论
FP16	无	A100/H100	≥40G	7B--72B	⭐⭐⭐⭐⭐	最稳
BF16	无	A100/H100	≥40G	13B--72B	⭐⭐⭐⭐⭐	最优
AWQ	4bit	RTX4090	24G	7B--14B	⭐⭐⭐⭐⭐	⭐首选
AWQ	4bit	A10 / L4	24G	7B--14B	⭐⭐⭐⭐⭐	⭐
GPTQ	4bit	RTX3090	24G	7B--13B	⭐⭐⭐	可用
GPTQ	4bit	A100	40G	13B--33B	⭐⭐⭐	有坑
bnb	4/8bit	任意	≥16G	≤7B	⭐⭐	不推荐
GGUF	4bit	任意	任意	任意	❌	不支持

二、按「GPU → 显存 → 模型格式」展开

① RTX 4090 / 3090（24GB，消费卡主流）

✅ 推荐：AWQ 4bit

7B / 8B（最稳）

bash 复制代码

vllm serve Qwen2-7B-AWQ \
  --quantization awq \
  --dtype float16 \
  --max-model-len 8192

项目	数值
权重显存	~5GB
KV Cache	~6--8GB
总占用	~14GB
并发	高

14B（极限但可跑）

bash 复制代码

vllm serve Qwen2-14B-AWQ \
  --quantization awq \
  --dtype float16 \
  --max-model-len 4096

⚠️ 关键限制：

必须降 max_model_len
避免 batch 过大

⚠️ GPTQ（不推荐但可用）

bash 复制代码

vllm serve LLaMA-2-7B-GPTQ \
  --quantization gptq \
  --dtype float16 \
  --enforce-eager

问题	原因
吞吐下降	eager mode
FlashAttn 关闭	kernel 不支持
稳定性差	GPTQ 权重多样

② A10 / L4（24GB，云上性价比）

标准推荐：AWQ

bash 复制代码

vllm serve Qwen2-7B-AWQ \
  --quantization awq \
  --dtype float16 \
  --max-model-len 8192

模型	可行性
7B	✅
13B	⚠️
14B	⚠️ 需 TP

❌ 不推荐 bnb

原因：

kernel 非最优
多请求抖动明显

③ A100 40GB（企业部署主力）

FP16 / BF16（最稳 + 最高吞吐）

13B

bash 复制代码

vllm serve Qwen2-13B \
  --dtype bfloat16 \
  --max-model-len 16384

33B

bash 复制代码

vllm serve Qwen2-32B \
  --dtype bfloat16 \
  --max-model-len 8192

AWQ 4bit（显存友好）

bash 复制代码

vllm serve Qwen2-32B-AWQ \
  --quantization awq \
  --dtype float16

优点	说明
显存	↓50%
吞吐	≈ FP16
稳定	⭐⭐⭐⭐⭐

④ A100 / H100 多卡（80GB × N）

72B / 70B（主流大模型）

bash 复制代码

vllm serve Qwen2-72B \
  --dtype bfloat16 \
  --tensor-parallel-size 8 \
  --max-model-len 8192

KV Cache 优化（H100 专属）

bash 复制代码

--kv-cache-dtype fp8

效果
KV Cache	↓40%
精度	几乎无损
要求	H100

⑤ L40 / L40S（48GB）

13B / 32B AWQ

bash 复制代码

vllm serve Qwen2-32B-AWQ \
  --quantization awq \
  --dtype float16 \
  --max-model-len 8192

三、参数作用速查表（防误用）

参数	控制什么	用错后果
`--quantization`	加载哪种 kernel	启动失败
`--dtype`	计算精度	性能 / 精度
`--max-model-len`	KV Cache 大小	OOM
`--tensor-parallel-size`	多卡切分	通信瓶颈
`--enforce-eager`	禁用 FlashAttn	吞吐暴跌
`--kv-cache-dtype`	KV 精度	显存/速度

四、工程结论

vLLM 的部署不是"模型能不能跑"，而是"参数是否匹配硬件物理现实"

模型格式 × GPU × 显存 × vLLM 参数模板对照表

一、快速选型总表

二、按「GPU → 显存 → 模型格式」展开

① RTX 4090 / 3090（24GB，消费卡主流）

✅ 推荐：AWQ 4bit

7B / 8B（最稳）

14B（极限但可跑）

⚠️ GPTQ（不推荐但可用）

② A10 / L4（24GB，云上性价比）

标准推荐：AWQ

❌ 不推荐 bnb

③ A100 40GB（企业部署主力）

FP16 / BF16（最稳 + 最高吞吐）

13B

33B

AWQ 4bit（显存友好）

④ A100 / H100 多卡（80GB × N）

72B / 70B（主流大模型）

KV Cache 优化（H100 专属）

⑤ L40 / L40S（48GB）

13B / 32B AWQ

三、参数作用速查表（防误用）

四、工程结论

推荐优先级：