一、快速选型总表
你拿到模型 + GPU → 直接抄参数
| 模型格式 | 量化 | GPU 架构 | 显存 | 推荐模型规模 | vLLM 可用性 | 结论 |
|---|---|---|---|---|---|---|
| FP16 | 无 | A100/H100 | ≥40G | 7B--72B | ⭐⭐⭐⭐⭐ | 最稳 |
| BF16 | 无 | A100/H100 | ≥40G | 13B--72B | ⭐⭐⭐⭐⭐ | 最优 |
| AWQ | 4bit | RTX4090 | 24G | 7B--14B | ⭐⭐⭐⭐⭐ | ⭐首选 |
| AWQ | 4bit | A10 / L4 | 24G | 7B--14B | ⭐⭐⭐⭐⭐ | ⭐ |
| GPTQ | 4bit | RTX3090 | 24G | 7B--13B | ⭐⭐⭐ | 可用 |
| GPTQ | 4bit | A100 | 40G | 13B--33B | ⭐⭐⭐ | 有坑 |
| bnb | 4/8bit | 任意 | ≥16G | ≤7B | ⭐⭐ | 不推荐 |
| GGUF | 4bit | 任意 | 任意 | 任意 | ❌ | 不支持 |
二、按「GPU → 显存 → 模型格式」展开
① RTX 4090 / 3090(24GB,消费卡主流)
✅ 推荐:AWQ 4bit
7B / 8B(最稳)
bash
vllm serve Qwen2-7B-AWQ \
--quantization awq \
--dtype float16 \
--max-model-len 8192
| 项目 | 数值 |
|---|---|
| 权重显存 | ~5GB |
| KV Cache | ~6--8GB |
| 总占用 | ~14GB |
| 并发 | 高 |
14B(极限但可跑)
bash
vllm serve Qwen2-14B-AWQ \
--quantization awq \
--dtype float16 \
--max-model-len 4096
⚠️ 关键限制:
- 必须降 max_model_len
- 避免 batch 过大
⚠️ GPTQ(不推荐但可用)
bash
vllm serve LLaMA-2-7B-GPTQ \
--quantization gptq \
--dtype float16 \
--enforce-eager
| 问题 | 原因 |
|---|---|
| 吞吐下降 | eager mode |
| FlashAttn 关闭 | kernel 不支持 |
| 稳定性差 | GPTQ 权重多样 |
② A10 / L4(24GB,云上性价比)
标准推荐:AWQ
bash
vllm serve Qwen2-7B-AWQ \
--quantization awq \
--dtype float16 \
--max-model-len 8192
| 模型 | 可行性 |
|---|---|
| 7B | ✅ |
| 13B | ⚠️ |
| 14B | ⚠️ 需 TP |
❌ 不推荐 bnb
原因:
- kernel 非最优
- 多请求抖动明显
③ A100 40GB(企业部署主力)
FP16 / BF16(最稳 + 最高吞吐)
13B
bash
vllm serve Qwen2-13B \
--dtype bfloat16 \
--max-model-len 16384
33B
bash
vllm serve Qwen2-32B \
--dtype bfloat16 \
--max-model-len 8192
AWQ 4bit(显存友好)
bash
vllm serve Qwen2-32B-AWQ \
--quantization awq \
--dtype float16
| 优点 | 说明 |
|---|---|
| 显存 | ↓50% |
| 吞吐 | ≈ FP16 |
| 稳定 | ⭐⭐⭐⭐⭐ |
④ A100 / H100 多卡(80GB × N)
72B / 70B(主流大模型)
bash
vllm serve Qwen2-72B \
--dtype bfloat16 \
--tensor-parallel-size 8 \
--max-model-len 8192
KV Cache 优化(H100 专属)
bash
--kv-cache-dtype fp8
| 效果 | |
|---|---|
| KV Cache | ↓40% |
| 精度 | 几乎无损 |
| 要求 | H100 |
⑤ L40 / L40S(48GB)
13B / 32B AWQ
bash
vllm serve Qwen2-32B-AWQ \
--quantization awq \
--dtype float16 \
--max-model-len 8192
三、参数作用速查表(防误用)
| 参数 | 控制什么 | 用错后果 |
|---|---|---|
--quantization |
加载哪种 kernel | 启动失败 |
--dtype |
计算精度 | 性能 / 精度 |
--max-model-len |
KV Cache 大小 | OOM |
--tensor-parallel-size |
多卡切分 | 通信瓶颈 |
--enforce-eager |
禁用 FlashAttn | 吞吐暴跌 |
--kv-cache-dtype |
KV 精度 | 显存/速度 |
四、工程结论
vLLM 的部署不是"模型能不能跑",而是"参数是否匹配硬件物理现实"
推荐优先级:
AWQ 4bit > FP16/BF16 > GPTQ >>> bnb