LLM量化技术全景对比：AWQ、GPTQ、GGUF与FP8/INT8/INT4的抉择指南

核心结论 ：量化算法仅占一半，内核优化才是决胜关键。Marlin内核让AWQ实现10.9倍加速，成为当前生产部署的"甜点"方案。

一、量化技术概览：从算法到硬件的全栈优化

大语言模型量化已从简单的"压缩存储"演进为算法-内核-硬件协同优化的系统工程。当前主流技术可分为三大阵营：

1. 后训练量化（PTQ）算法层

技术	核心机制	精度保护策略	计算特性
AWQ	激活感知权重量化	保护激活幅度大的通道（0.1%-1%显著权重）	全INT4/INT3，硬件友好
GPTQ	基于Hessian矩阵的层-wise量化	最小化重构误差，逐层更新	高精度但计算密集
GGUF	标准量化和零点量化	分组缩放，元数据丰富	跨平台，CPU优化
BitsandBytes	动态量化	运行时量化，无需预量化检查点	即插即用，精度损失小

2. 推理引擎与内核层

Marlin内核：专为4-bit量化优化的GEMM内核，支持2:4结构化稀疏性，让AWQ/GPTQ实现数量级加速
Triton后端：vLLM在2026年采用的跨平台内核方案，支持NVIDIA/AMD/Intel GPU
TensorRT-LLM：NVIDIA专用优化，FP8计算原生支持，H100/B100上性能极致

3. 硬件原生支持

FP8：H100/H200原生支持，E4M3（精度优先）和E5M2（动态范围优先）两种格式
INT8/INT4：通用支持，但需内核优化才能发挥性能

二、精度对比：Perplexity与任务性能

基于Llama-3-70B在NVIDIA A100上的权威基准测试：

学术指标（Perplexity，越低越好）

量化方案	WikiText2 PPL	相对FP16损失
FP16（基线）	6.56	0%
BitsandBytes	6.67	~1.7%
GGUF (Q4_K_M)	6.74	~2.7%
AWQ	6.84	~4.3%
GPTQ	6.90	~5.2%

关键发现：

BitsandBytes精度保持最佳（无需预量化），但推理速度较慢
GGUF在4-bit下精度惊人，接近8-bit水平
AWQ 和GPTQ差距不大，但AWQ在代码生成任务上优势明显

下游任务性能（HumanEval Pass@1，越高越好）

方法	Pass@1	相对基线损失
FP16基线	56.1%	-
AWQ / Marlin-AWQ	51.8%	-7.7%
GGUF (Q4_K_M)	51.8%	-7.7%
BitsandBytes	51.8%	-7.7%
GPTQ / Marlin-GPTQ	45.7-46.3%	-17.5%

结论：在代码生成任务上，AWQ、GGUF、BitsandBytes形成第一梯队，显著优于GPTQ

三、速度对决：吞吐量与延迟

基于JarvisLabs在vLLM上的实测数据（Llama-3.1-8B，H100）：

吞吐量（tokens/s，越高越好）

方案	输出吞吐量	总吞吐量	相比FP16
Marlin-AWQ	741	1444	+61%
Marlin-GPTQ	712	1388	+54%
FP16基线	461	898	基准
BitsandBytes	168	329	-64%
GGUF (Q4_K_M)	93	179	-80%
原生AWQ（无Marlin）	68	132	-85%

延迟指标（越低越好）

方案	首Token延迟(TTFT)	inter-Token延迟(ITL)
Marlin-GPTQ	51.9ms	13.1ms
FP16基线	57.7ms	20.4ms
Marlin-AWQ	73.5ms	12.6ms
BitsandBytes	135.3ms	56.5ms
原生AWQ	277.8ms	138.7ms
GGUF	958.0ms	101.6ms

震撼结论：

Marlin内核带来10.9倍加速（AWQ从68→741 tok/s）
Marlin-AWQ在ITL（流式体验关键指标）上表现最优
GGUF在vLLM中表现不佳（TTFT近1秒），但在llama.cpp中是王者

四、不同精度格式：FP8 vs INT8 vs INT4

基于火山引擎在vLLM上的Llama-3-70B测试：

精度-性能权衡矩阵

方案	MMLU准确率	显存占用	吞吐量	加速比	适用场景
FP16	68.5%	138.2GB	128.5 t/s	1.0x	训练/高精度推理
FP8	67.9% (-0.9%)	69.1GB	245.3 t/s	1.9x	精度敏感的生产环境
INT8	66.3% (-3.2%)	69.1GB	212.7 t/s	1.65x	平衡选择，兼容性最佳
INT4	60.2% (-12.1%)	34.5GB	301.2 t/s	2.34x	极致压缩，高吞吐

FP8的技术优势

FP8（8-bit浮点）相比INT8具有更宽的动态范围，通过指数位分配（E4M3/E5M2）天然适应神经网络中的异常值分布：

E4M3：4位指数+3位尾数，范围±448，适合前向推理
E5M2：5位指数+2位尾数，范围±57,344，适合训练梯度

但硬件实现上，FP8 MAC单元比INT8效率低50-180%，INT4-INT8-INT16混合精度仍是边缘设备的最佳选择

五、推理引擎对比：vLLM vs TensorRT-LLM

2026年最新格局

维度	vLLM	TensorRT-LLM
核心优势	高并发、PagedAttention、开源生态	极致延迟、FP8原生、企业级控制
量化支持	GPTQ/AWQ/GGUF/FP8/INT8/INT4广泛支持	FP8计算（Hopper/Blackwell原生）
性能	793 t/s（P99延迟80ms）	最高8倍加速，5倍吞吐
TTFT优化	标准	前缀缓存、KV复用、优先级驱逐
硬件绑定	跨平台（NVIDIA/AMD/Intel）	NVIDIA-only
易用性	Python API，即插即用	需编译优化，专业工程师
典型场景	多租户服务、实验验证	延迟关键型、大规模GPU集群

选择决策树

复制代码

需要支持多模型/快速迭代？ → vLLM
单模型长期生产+极致性能？ → TensorRT-LLM
长上下文（>200k tokens）？ → TGI v3（13倍快于vLLM）
跨平台（AMD/Intel）？ → vLLM（Triton后端）
NVIDIA H100/B100+FP8？ → TensorRT-LLM

六、实战选择指南

按优先级推荐

你的需求	最佳选择	备选方案
速度+质量平衡	Marlin-AWQ	Marlin-GPTQ
最高精度	BitsandBytes	GGUF (Q4_K_M)
代码生成	Marlin-AWQ / GGUF	BitsandBytes
极致速度	Marlin-AWQ	TensorRT-LLM (FP8)
快速部署	BitsandBytes（无需预量化）	vLLM原生FP8
边缘/CPU	GGUF + llama.cpp	AWQ（有限支持）
生产级服务	Marlin-AWQ + vLLM	TensorRT-LLM + Triton

关键建议

内核 > 算法：同样的AWQ算法，Marlin内核带来10倍加速，选择推理引擎时内核优化比量化算法更重要
FP8是H100的最优解：在支持FP8的硬件上，TensorRT-LLM的FP8计算能提供几乎无损的精度（<1.2%损失）和1.9倍加速
GGUF的"主场"在llama.cpp：虽然GGUF精度优秀，但在vLLM中速度垫底；若使用Ollama/LM Studio本地部署，GGUF仍是首选
避免原生AWQ：没有Marlin内核的AWQ速度极慢（68 t/s），务必使用Marlin-AWQ或切换到vLLM/SGLang的最新版本

七、未来趋势

4-bit成为新常态：AWQ/GPTQ的4-bit方案已能在70B模型上保持可用精度，配合Marlin内核实现超越FP16的速度
FP8普及化：随着H100/B100部署扩大，FP8将成为云端推理的默认精度，边缘侧仍由INT4/INT8主导
动态量化：BitsandBytes的"即插即用"模式降低了量化门槛，未来可能出现更智能的混合精度调度
多模态量化：AWQ已扩展至视觉-语言模型（如OpenFlamingo），多模态量化将成为下一个战场

总结

当前LLM量化技术已形成清晰的分层格局：

算法层：AWQ凭借"激活感知"机制在精度-速度平衡上领先，GPTQ在纯精度上略逊但社区支持广泛
内核层：Marlin内核重新定义了4-bit量化的性能标准，让INT4推理快于FP16成为现实
硬件层：FP8在NVIDIA新架构上展现统治力，INT8/INT4保持跨平台优势

对于绝大多数生产环境，Marlin-AWQ + vLLM是当前的最优解------它提供了741 t/s的吞吐量、51.8%的HumanEval通过率，以及开箱即用的部署体验。只有在NVIDIA H100/B100集群且追求极致性能时，才值得投入TensorRT-LLM的复杂优化。

参考资源：

AWQ论文：NeurIPS 2023
Marlin内核：GitHub
vLLM量化指南：JarvisLabs
FP8技术解析：arXiv