模型格式 × GPU × 显存 × vLLM 参数模板对照表

一、快速选型总表

你拿到模型 + GPU → 直接抄参数

模型格式 量化 GPU 架构 显存 推荐模型规模 vLLM 可用性 结论
FP16 A100/H100 ≥40G 7B--72B ⭐⭐⭐⭐⭐ 最稳
BF16 A100/H100 ≥40G 13B--72B ⭐⭐⭐⭐⭐ 最优
AWQ 4bit RTX4090 24G 7B--14B ⭐⭐⭐⭐⭐ ⭐首选
AWQ 4bit A10 / L4 24G 7B--14B ⭐⭐⭐⭐⭐
GPTQ 4bit RTX3090 24G 7B--13B ⭐⭐⭐ 可用
GPTQ 4bit A100 40G 13B--33B ⭐⭐⭐ 有坑
bnb 4/8bit 任意 ≥16G ≤7B ⭐⭐ 不推荐
GGUF 4bit 任意 任意 任意 不支持

二、按「GPU → 显存 → 模型格式」展开


① RTX 4090 / 3090(24GB,消费卡主流)

✅ 推荐:AWQ 4bit

7B / 8B(最稳)
bash 复制代码
vllm serve Qwen2-7B-AWQ \
  --quantization awq \
  --dtype float16 \
  --max-model-len 8192
项目 数值
权重显存 ~5GB
KV Cache ~6--8GB
总占用 ~14GB
并发

14B(极限但可跑)
bash 复制代码
vllm serve Qwen2-14B-AWQ \
  --quantization awq \
  --dtype float16 \
  --max-model-len 4096

⚠️ 关键限制:

  • 必须降 max_model_len
  • 避免 batch 过大

⚠️ GPTQ(不推荐但可用)

bash 复制代码
vllm serve LLaMA-2-7B-GPTQ \
  --quantization gptq \
  --dtype float16 \
  --enforce-eager
问题 原因
吞吐下降 eager mode
FlashAttn 关闭 kernel 不支持
稳定性差 GPTQ 权重多样

② A10 / L4(24GB,云上性价比)

标准推荐:AWQ

bash 复制代码
vllm serve Qwen2-7B-AWQ \
  --quantization awq \
  --dtype float16 \
  --max-model-len 8192
模型 可行性
7B
13B ⚠️
14B ⚠️ 需 TP

❌ 不推荐 bnb

原因:

  • kernel 非最优
  • 多请求抖动明显

③ A100 40GB(企业部署主力)


FP16 / BF16(最稳 + 最高吞吐)

13B
bash 复制代码
vllm serve Qwen2-13B \
  --dtype bfloat16 \
  --max-model-len 16384
33B
bash 复制代码
vllm serve Qwen2-32B \
  --dtype bfloat16 \
  --max-model-len 8192

AWQ 4bit(显存友好)

bash 复制代码
vllm serve Qwen2-32B-AWQ \
  --quantization awq \
  --dtype float16
优点 说明
显存 ↓50%
吞吐 ≈ FP16
稳定 ⭐⭐⭐⭐⭐

④ A100 / H100 多卡(80GB × N)


72B / 70B(主流大模型)

bash 复制代码
vllm serve Qwen2-72B \
  --dtype bfloat16 \
  --tensor-parallel-size 8 \
  --max-model-len 8192

KV Cache 优化(H100 专属)

bash 复制代码
--kv-cache-dtype fp8
效果
KV Cache ↓40%
精度 几乎无损
要求 H100

⑤ L40 / L40S(48GB)

13B / 32B AWQ

bash 复制代码
vllm serve Qwen2-32B-AWQ \
  --quantization awq \
  --dtype float16 \
  --max-model-len 8192

三、参数作用速查表(防误用)

参数 控制什么 用错后果
--quantization 加载哪种 kernel 启动失败
--dtype 计算精度 性能 / 精度
--max-model-len KV Cache 大小 OOM
--tensor-parallel-size 多卡切分 通信瓶颈
--enforce-eager 禁用 FlashAttn 吞吐暴跌
--kv-cache-dtype KV 精度 显存/速度

四、工程结论

vLLM 的部署不是"模型能不能跑",而是"参数是否匹配硬件物理现实"

推荐优先级:

复制代码
AWQ 4bit  >  FP16/BF16  >  GPTQ  >>>  bnb
相关推荐
柠檬丶抒情5 小时前
Rust深度学习框架Burn 0.20是否能超过python?
python·深度学习·rust·vllm
陈 洪 伟2 天前
大模型推理引擎 vLLM(2):PagedAttention论文学习以及原理解析
vllm·pageattention
Hcoco_me3 天前
大模型面试题75:讲解一下GRPO的数据回放
人工智能·深度学习·算法·机器学习·vllm
Hcoco_me3 天前
大模型面试题76:强化学习中on-policy和off-policy的区别是什么?
人工智能·深度学习·算法·transformer·vllm
恭仔さん4 天前
大模型推理架构 TGI vs vLLM
架构·vllm·tgi
技术狂人1685 天前
工业大模型工程化部署实战!4 卡 L40S 高可用集群(动态资源调度 + 监控告警 + 国产化适配)
人工智能·算法·面试·职场和发展·vllm
Hcoco_me5 天前
大模型面试题71: DPO有什么缺点?后续对DPO算法有哪些改进?
人工智能·深度学习·算法·自然语言处理·transformer·vllm
Hcoco_me7 天前
大模型面试题61:Flash Attention中online softmax(在线softmax)的实现方式
人工智能·深度学习·自然语言处理·transformer·vllm
MonkeyKing_sunyuhua7 天前
vLLM-Omni 分别起 3 个推理服务(文生图 / 单图改图 / 多图改图)
vllm