核心结论 :量化算法仅占一半,内核优化才是决胜关键。Marlin内核让AWQ实现10.9倍加速,成为当前生产部署的"甜点"方案。
一、量化技术概览:从算法到硬件的全栈优化
大语言模型量化已从简单的"压缩存储"演进为算法-内核-硬件协同优化的系统工程。当前主流技术可分为三大阵营:
1. 后训练量化(PTQ)算法层
| 技术 | 核心机制 | 精度保护策略 | 计算特性 |
|---|---|---|---|
| AWQ | 激活感知权重量化 | 保护激活幅度大的通道(0.1%-1%显著权重) | 全INT4/INT3,硬件友好 |
| GPTQ | 基于Hessian矩阵的层-wise量化 | 最小化重构误差,逐层更新 | 高精度但计算密集 |
| GGUF | 标准量化和零点量化 | 分组缩放,元数据丰富 | 跨平台,CPU优化 |
| BitsandBytes | 动态量化 | 运行时量化,无需预量化检查点 | 即插即用,精度损失小 |
2. 推理引擎与内核层
- Marlin内核:专为4-bit量化优化的GEMM内核,支持2:4结构化稀疏性,让AWQ/GPTQ实现数量级加速
- Triton后端:vLLM在2026年采用的跨平台内核方案,支持NVIDIA/AMD/Intel GPU
- TensorRT-LLM:NVIDIA专用优化,FP8计算原生支持,H100/B100上性能极致
3. 硬件原生支持
- FP8:H100/H200原生支持,E4M3(精度优先)和E5M2(动态范围优先)两种格式
- INT8/INT4:通用支持,但需内核优化才能发挥性能
二、精度对比:Perplexity与任务性能
基于Llama-3-70B在NVIDIA A100上的权威基准测试:
学术指标(Perplexity,越低越好)
| 量化方案 | WikiText2 PPL | 相对FP16损失 |
|---|---|---|
| FP16(基线) | 6.56 | 0% |
| BitsandBytes | 6.67 | ~1.7% |
| GGUF (Q4_K_M) | 6.74 | ~2.7% |
| AWQ | 6.84 | ~4.3% |
| GPTQ | 6.90 | ~5.2% |
关键发现:
- BitsandBytes精度保持最佳(无需预量化),但推理速度较慢
- GGUF在4-bit下精度惊人,接近8-bit水平
- AWQ 和GPTQ差距不大,但AWQ在代码生成任务上优势明显
下游任务性能(HumanEval Pass@1,越高越好)
| 方法 | Pass@1 | 相对基线损失 |
|---|---|---|
| FP16基线 | 56.1% | - |
| AWQ / Marlin-AWQ | 51.8% | -7.7% |
| GGUF (Q4_K_M) | 51.8% | -7.7% |
| BitsandBytes | 51.8% | -7.7% |
| GPTQ / Marlin-GPTQ | 45.7-46.3% | -17.5% |
结论:在代码生成任务上,AWQ、GGUF、BitsandBytes形成第一梯队,显著优于GPTQ
三、速度对决:吞吐量与延迟
基于JarvisLabs在vLLM上的实测数据(Llama-3.1-8B,H100):
吞吐量(tokens/s,越高越好)
| 方案 | 输出吞吐量 | 总吞吐量 | 相比FP16 |
|---|---|---|---|
| Marlin-AWQ | 741 | 1444 | +61% |
| Marlin-GPTQ | 712 | 1388 | +54% |
| FP16基线 | 461 | 898 | 基准 |
| BitsandBytes | 168 | 329 | -64% |
| GGUF (Q4_K_M) | 93 | 179 | -80% |
| 原生AWQ(无Marlin) | 68 | 132 | -85% |
延迟指标(越低越好)
| 方案 | 首Token延迟(TTFT) | inter-Token延迟(ITL) |
|---|---|---|
| Marlin-GPTQ | 51.9ms | 13.1ms |
| FP16基线 | 57.7ms | 20.4ms |
| Marlin-AWQ | 73.5ms | 12.6ms |
| BitsandBytes | 135.3ms | 56.5ms |
| 原生AWQ | 277.8ms | 138.7ms |
| GGUF | 958.0ms | 101.6ms |
震撼结论:
- Marlin内核带来10.9倍加速(AWQ从68→741 tok/s)
- Marlin-AWQ在ITL(流式体验关键指标)上表现最优
- GGUF在vLLM中表现不佳(TTFT近1秒),但在llama.cpp中是王者
四、不同精度格式:FP8 vs INT8 vs INT4
基于火山引擎在vLLM上的Llama-3-70B测试:
精度-性能权衡矩阵
| 方案 | MMLU准确率 | 显存占用 | 吞吐量 | 加速比 | 适用场景 |
|---|---|---|---|---|---|
| FP16 | 68.5% | 138.2GB | 128.5 t/s | 1.0x | 训练/高精度推理 |
| FP8 | 67.9% (-0.9%) | 69.1GB | 245.3 t/s | 1.9x | 精度敏感的生产环境 |
| INT8 | 66.3% (-3.2%) | 69.1GB | 212.7 t/s | 1.65x | 平衡选择,兼容性最佳 |
| INT4 | 60.2% (-12.1%) | 34.5GB | 301.2 t/s | 2.34x | 极致压缩,高吞吐 |
FP8的技术优势
FP8(8-bit浮点)相比INT8具有更宽的动态范围,通过指数位分配(E4M3/E5M2)天然适应神经网络中的异常值分布:
- E4M3:4位指数+3位尾数,范围±448,适合前向推理
- E5M2:5位指数+2位尾数,范围±57,344,适合训练梯度
但硬件实现上,FP8 MAC单元比INT8效率低50-180%,INT4-INT8-INT16混合精度仍是边缘设备的最佳选择
五、推理引擎对比:vLLM vs TensorRT-LLM
2026年最新格局
| 维度 | vLLM | TensorRT-LLM |
|---|---|---|
| 核心优势 | 高并发、PagedAttention、开源生态 | 极致延迟、FP8原生、企业级控制 |
| 量化支持 | GPTQ/AWQ/GGUF/FP8/INT8/INT4广泛支持 | FP8计算(Hopper/Blackwell原生) |
| 性能 | 793 t/s(P99延迟80ms) | 最高8倍加速,5倍吞吐 |
| TTFT优化 | 标准 | 前缀缓存、KV复用、优先级驱逐 |
| 硬件绑定 | 跨平台(NVIDIA/AMD/Intel) | NVIDIA-only |
| 易用性 | Python API,即插即用 | 需编译优化,专业工程师 |
| 典型场景 | 多租户服务、实验验证 | 延迟关键型、大规模GPU集群 |
选择决策树
需要支持多模型/快速迭代? → vLLM
单模型长期生产+极致性能? → TensorRT-LLM
长上下文(>200k tokens)? → TGI v3(13倍快于vLLM)
跨平台(AMD/Intel)? → vLLM(Triton后端)
NVIDIA H100/B100+FP8? → TensorRT-LLM
六、实战选择指南
按优先级推荐
| 你的需求 | 最佳选择 | 备选方案 |
|---|---|---|
| 速度+质量平衡 | Marlin-AWQ | Marlin-GPTQ |
| 最高精度 | BitsandBytes | GGUF (Q4_K_M) |
| 代码生成 | Marlin-AWQ / GGUF | BitsandBytes |
| 极致速度 | Marlin-AWQ | TensorRT-LLM (FP8) |
| 快速部署 | BitsandBytes(无需预量化) | vLLM原生FP8 |
| 边缘/CPU | GGUF + llama.cpp | AWQ(有限支持) |
| 生产级服务 | Marlin-AWQ + vLLM | TensorRT-LLM + Triton |
关键建议
-
内核 > 算法:同样的AWQ算法,Marlin内核带来10倍加速,选择推理引擎时内核优化比量化算法更重要
-
FP8是H100的最优解:在支持FP8的硬件上,TensorRT-LLM的FP8计算能提供几乎无损的精度(<1.2%损失)和1.9倍加速
-
GGUF的"主场"在llama.cpp:虽然GGUF精度优秀,但在vLLM中速度垫底;若使用Ollama/LM Studio本地部署,GGUF仍是首选
-
避免原生AWQ:没有Marlin内核的AWQ速度极慢(68 t/s),务必使用Marlin-AWQ或切换到vLLM/SGLang的最新版本
七、未来趋势
-
4-bit成为新常态:AWQ/GPTQ的4-bit方案已能在70B模型上保持可用精度,配合Marlin内核实现超越FP16的速度
-
FP8普及化:随着H100/B100部署扩大,FP8将成为云端推理的默认精度,边缘侧仍由INT4/INT8主导
-
动态量化:BitsandBytes的"即插即用"模式降低了量化门槛,未来可能出现更智能的混合精度调度
-
多模态量化:AWQ已扩展至视觉-语言模型(如OpenFlamingo),多模态量化将成为下一个战场
总结
当前LLM量化技术已形成清晰的分层格局:
- 算法层:AWQ凭借"激活感知"机制在精度-速度平衡上领先,GPTQ在纯精度上略逊但社区支持广泛
- 内核层:Marlin内核重新定义了4-bit量化的性能标准,让INT4推理快于FP16成为现实
- 硬件层:FP8在NVIDIA新架构上展现统治力,INT8/INT4保持跨平台优势
对于绝大多数生产环境,Marlin-AWQ + vLLM是当前的最优解------它提供了741 t/s的吞吐量、51.8%的HumanEval通过率,以及开箱即用的部署体验。只有在NVIDIA H100/B100集群且追求极致性能时,才值得投入TensorRT-LLM的复杂优化。
参考资源:
- AWQ论文:NeurIPS 2023
- Marlin内核:GitHub
- vLLM量化指南:JarvisLabs
- FP8技术解析:arXiv