模型格式 × GPU × 显存 × vLLM 参数模板对照表

一、快速选型总表

你拿到模型 + GPU → 直接抄参数

模型格式 量化 GPU 架构 显存 推荐模型规模 vLLM 可用性 结论
FP16 A100/H100 ≥40G 7B--72B ⭐⭐⭐⭐⭐ 最稳
BF16 A100/H100 ≥40G 13B--72B ⭐⭐⭐⭐⭐ 最优
AWQ 4bit RTX4090 24G 7B--14B ⭐⭐⭐⭐⭐ ⭐首选
AWQ 4bit A10 / L4 24G 7B--14B ⭐⭐⭐⭐⭐
GPTQ 4bit RTX3090 24G 7B--13B ⭐⭐⭐ 可用
GPTQ 4bit A100 40G 13B--33B ⭐⭐⭐ 有坑
bnb 4/8bit 任意 ≥16G ≤7B ⭐⭐ 不推荐
GGUF 4bit 任意 任意 任意 不支持

二、按「GPU → 显存 → 模型格式」展开


① RTX 4090 / 3090(24GB,消费卡主流)

✅ 推荐:AWQ 4bit

7B / 8B(最稳)
bash 复制代码
vllm serve Qwen2-7B-AWQ \
  --quantization awq \
  --dtype float16 \
  --max-model-len 8192
项目 数值
权重显存 ~5GB
KV Cache ~6--8GB
总占用 ~14GB
并发

14B(极限但可跑)
bash 复制代码
vllm serve Qwen2-14B-AWQ \
  --quantization awq \
  --dtype float16 \
  --max-model-len 4096

⚠️ 关键限制:

  • 必须降 max_model_len
  • 避免 batch 过大

⚠️ GPTQ(不推荐但可用)

bash 复制代码
vllm serve LLaMA-2-7B-GPTQ \
  --quantization gptq \
  --dtype float16 \
  --enforce-eager
问题 原因
吞吐下降 eager mode
FlashAttn 关闭 kernel 不支持
稳定性差 GPTQ 权重多样

② A10 / L4(24GB,云上性价比)

标准推荐:AWQ

bash 复制代码
vllm serve Qwen2-7B-AWQ \
  --quantization awq \
  --dtype float16 \
  --max-model-len 8192
模型 可行性
7B
13B ⚠️
14B ⚠️ 需 TP

❌ 不推荐 bnb

原因:

  • kernel 非最优
  • 多请求抖动明显

③ A100 40GB(企业部署主力)


FP16 / BF16(最稳 + 最高吞吐)

13B
bash 复制代码
vllm serve Qwen2-13B \
  --dtype bfloat16 \
  --max-model-len 16384
33B
bash 复制代码
vllm serve Qwen2-32B \
  --dtype bfloat16 \
  --max-model-len 8192

AWQ 4bit(显存友好)

bash 复制代码
vllm serve Qwen2-32B-AWQ \
  --quantization awq \
  --dtype float16
优点 说明
显存 ↓50%
吞吐 ≈ FP16
稳定 ⭐⭐⭐⭐⭐

④ A100 / H100 多卡(80GB × N)


72B / 70B(主流大模型)

bash 复制代码
vllm serve Qwen2-72B \
  --dtype bfloat16 \
  --tensor-parallel-size 8 \
  --max-model-len 8192

KV Cache 优化(H100 专属)

bash 复制代码
--kv-cache-dtype fp8
效果
KV Cache ↓40%
精度 几乎无损
要求 H100

⑤ L40 / L40S(48GB)

13B / 32B AWQ

bash 复制代码
vllm serve Qwen2-32B-AWQ \
  --quantization awq \
  --dtype float16 \
  --max-model-len 8192

三、参数作用速查表(防误用)

参数 控制什么 用错后果
--quantization 加载哪种 kernel 启动失败
--dtype 计算精度 性能 / 精度
--max-model-len KV Cache 大小 OOM
--tensor-parallel-size 多卡切分 通信瓶颈
--enforce-eager 禁用 FlashAttn 吞吐暴跌
--kv-cache-dtype KV 精度 显存/速度

四、工程结论

vLLM 的部署不是"模型能不能跑",而是"参数是否匹配硬件物理现实"

推荐优先级:

复制代码
AWQ 4bit  >  FP16/BF16  >  GPTQ  >>>  bnb
相关推荐
铁蛋AI编程实战1 天前
2026 大模型推理框架测评:vLLM 0.5/TGI 2.0/TensorRT-LLM 1.8/DeepSpeed-MII 0.9 性能与成本防线对比
人工智能·机器学习·vllm
bloglin999992 天前
Qwen3-32B大模型vLLM启动建议
vllm
洋洋代码3 天前
本地vLLM部署大模型使用Langchain4J调用问题(非流式)
vllm·langchain4j·qwen3
海棠AI实验室3 天前
RunPod Serverless + vLLM:大语言模型部署与配置指南(实战版)
部署·vllm·runpod
AnchorYYC4 天前
从日志与源码白盒定位 vLLM 接口的通用方法(以 /v1/score 为例)
vllm
铁蛋AI编程实战4 天前
DeepSeek-OCR2:开源 OCR 新王者完整部署教程(vLLM+Transformers 双接口 + 动态分辨率 + 文档批量处理)
开源·ocr·vllm
HyperAI超神经5 天前
覆盖天体物理/地球科学/流变学/声学等19种场景,Polymathic AI构建1.3B模型实现精确连续介质仿真
人工智能·深度学习·学习·算法·机器学习·ai编程·vllm
GPUStack6 天前
vLLM、SGLang 融资背后,AI 推理正在走向系统化与治理
大模型·llm·vllm·模型推理·sglang·高性能推理
人工智能训练6 天前
【极速部署】Ubuntu24.04+CUDA13.0 玩转 VLLM 0.15.0:预编译 Wheel 包 GPU 版安装全攻略
运维·前端·人工智能·python·ai编程·cuda·vllm
a41324478 天前
ubuntu 25 安装vllm
linux·服务器·ubuntu·vllm