一、快速选型总表
你拿到模型 + GPU → 直接抄参数
| 模型格式 |
量化 |
GPU 架构 |
显存 |
推荐模型规模 |
vLLM 可用性 |
结论 |
| FP16 |
无 |
A100/H100 |
≥40G |
7B--72B |
⭐⭐⭐⭐⭐ |
最稳 |
| BF16 |
无 |
A100/H100 |
≥40G |
13B--72B |
⭐⭐⭐⭐⭐ |
最优 |
| AWQ |
4bit |
RTX4090 |
24G |
7B--14B |
⭐⭐⭐⭐⭐ |
⭐首选 |
| AWQ |
4bit |
A10 / L4 |
24G |
7B--14B |
⭐⭐⭐⭐⭐ |
⭐ |
| GPTQ |
4bit |
RTX3090 |
24G |
7B--13B |
⭐⭐⭐ |
可用 |
| GPTQ |
4bit |
A100 |
40G |
13B--33B |
⭐⭐⭐ |
有坑 |
| bnb |
4/8bit |
任意 |
≥16G |
≤7B |
⭐⭐ |
不推荐 |
| GGUF |
4bit |
任意 |
任意 |
任意 |
❌ |
不支持 |
二、按「GPU → 显存 → 模型格式」展开
① RTX 4090 / 3090(24GB,消费卡主流)
✅ 推荐:AWQ 4bit
7B / 8B(最稳)
bash
复制代码
vllm serve Qwen2-7B-AWQ \
--quantization awq \
--dtype float16 \
--max-model-len 8192
| 项目 |
数值 |
| 权重显存 |
~5GB |
| KV Cache |
~6--8GB |
| 总占用 |
~14GB |
| 并发 |
高 |
14B(极限但可跑)
bash
复制代码
vllm serve Qwen2-14B-AWQ \
--quantization awq \
--dtype float16 \
--max-model-len 4096
⚠️ 关键限制:
- 必须降 max_model_len
- 避免 batch 过大
⚠️ GPTQ(不推荐但可用)
bash
复制代码
vllm serve LLaMA-2-7B-GPTQ \
--quantization gptq \
--dtype float16 \
--enforce-eager
| 问题 |
原因 |
| 吞吐下降 |
eager mode |
| FlashAttn 关闭 |
kernel 不支持 |
| 稳定性差 |
GPTQ 权重多样 |
② A10 / L4(24GB,云上性价比)
标准推荐:AWQ
bash
复制代码
vllm serve Qwen2-7B-AWQ \
--quantization awq \
--dtype float16 \
--max-model-len 8192
| 模型 |
可行性 |
| 7B |
✅ |
| 13B |
⚠️ |
| 14B |
⚠️ 需 TP |
❌ 不推荐 bnb
原因:
③ A100 40GB(企业部署主力)
FP16 / BF16(最稳 + 最高吞吐)
13B
bash
复制代码
vllm serve Qwen2-13B \
--dtype bfloat16 \
--max-model-len 16384
33B
bash
复制代码
vllm serve Qwen2-32B \
--dtype bfloat16 \
--max-model-len 8192
AWQ 4bit(显存友好)
bash
复制代码
vllm serve Qwen2-32B-AWQ \
--quantization awq \
--dtype float16
| 优点 |
说明 |
| 显存 |
↓50% |
| 吞吐 |
≈ FP16 |
| 稳定 |
⭐⭐⭐⭐⭐ |
④ A100 / H100 多卡(80GB × N)
72B / 70B(主流大模型)
bash
复制代码
vllm serve Qwen2-72B \
--dtype bfloat16 \
--tensor-parallel-size 8 \
--max-model-len 8192
KV Cache 优化(H100 专属)
bash
复制代码
--kv-cache-dtype fp8
| 效果 |
|
| KV Cache |
↓40% |
| 精度 |
几乎无损 |
| 要求 |
H100 |
⑤ L40 / L40S(48GB)
13B / 32B AWQ
bash
复制代码
vllm serve Qwen2-32B-AWQ \
--quantization awq \
--dtype float16 \
--max-model-len 8192
三、参数作用速查表(防误用)
| 参数 |
控制什么 |
用错后果 |
--quantization |
加载哪种 kernel |
启动失败 |
--dtype |
计算精度 |
性能 / 精度 |
--max-model-len |
KV Cache 大小 |
OOM |
--tensor-parallel-size |
多卡切分 |
通信瓶颈 |
--enforce-eager |
禁用 FlashAttn |
吞吐暴跌 |
--kv-cache-dtype |
KV 精度 |
显存/速度 |
四、工程结论
vLLM 的部署不是"模型能不能跑",而是"参数是否匹配硬件物理现实"
推荐优先级:
复制代码
AWQ 4bit > FP16/BF16 > GPTQ >>> bnb