一、引言:为什么量化是AI落地的末端环节
2023年,GPT-4的参数量传闻超过1.8万亿;2024年,Llama 3.1 405B开源;2025年,Qwen3-VL-2B试图在手机上运行多模态推理。模型规模的指数级增长与硬件资源的线性增长之间,横亘着一道名为推理成本的鸿沟。
量化(Quantization)的本质,是用信息论 的视角重新审视神经网络:我们真的需要32位浮点数来表示每一个权重吗?一个经过预训练的Transformer,其权重分布往往呈现出强烈的结构性------大部分参数集中在零附近,少数"显著权重"承载着关键语义。量化要做的,就是在最小化信息损失的前提下,用更少的比特编码这些参数。
但这绝非简单的"四舍五入"。从GPTQ的Hessian逆矩阵补偿,到TensorRT的Q/DQ图融合,再到GGUF的"量化的量化"------这条技术谱系背后,是编译器理论、数值分析、硬件架构与机器学习的多学科交叉。
本文将带你穿越这条技术谱系,从大语言模型(LLM) 到计算机视觉(CV)模型 ,再到2026年最新突破,构建一幅完整的量化压缩全景图。
二、量化基础:信息论视角与工程实践
2.1 浮点表示与量化误差
IEEE 754单精度浮点数(FP32)用32比特编码:1位符号、8位指数、23位尾数。对于神经网络权重,这种表示是严重过剩的。量化将其映射到低比特整数空间:

2.2 静态量化 vs 动态量化 vs 训练感知量化
| 维度 | 静态量化 (PTQ) | 动态量化 | 训练感知量化 (QAT) |
|---|---|---|---|
| Scale确定 | 校准数据集预计算 | 运行时动态计算 | 训练时学习 |
| 是否需要训练 | 否 | 否 | 是(微调) |
| 延迟 | 低(无运行时开销) | 高(需统计范围) | 低 |
| 精度 | 中高 | 中 | 最高 |
| 适用场景 | 生产部署 | 快速原型 | 精度敏感场景 |
2.3 量化粒度:从张量到通道到块
| 粒度模式 | 适用对象 | Scale计算 | 精度 | 硬件友好度 |
|---|---|---|---|---|
| Per-tensor | 激活值 | 单一标量 | 低 | 高 |
| Per-channel | 权重(Conv/FC) | 沿输出通道广播 | 中 | 中 |
| Per-token | 激活(LLM动态) | 逐token计算 | 高 | 低 |
| Block | 权重(INT4/FP4) | 1D块共享 | 中 | 高 |
三、大语言模型(LLM)量化方法谱系
LLM的量化面临一个独特挑战:激活异常值(Activation Outliers)。MIT的研究发现,Transformer中少数通道的激活幅度比正常值大100-300倍,这些"离群值"像钉子户一样占据着动态范围,迫使其他正常值被压缩到极小的表示空间。

上图展示了不同量化方法在压缩率 vs 精度损失平面上的分布。可以清晰看到三个区域:
-
生产就绪区(Loss < 1.0):FP16、INT8 SmoothQuant、AWQ W4、GGUF Q6_K、SpecQuant W4A4、CoQuant W4A4
-
可接受区(1.0 < Loss < 3.0):GPTQ W4、QuaRot W4A4、AQLM W2、DASH-Q W2、MR-GPTQ FP4
-
实验区(Loss > 3.0):GGUF Q2_K、FP4 E2M1、NanoQuant ~0.8bit
3.1 后训练量化(PTQ):无需重新训练的压缩艺术
GPTQ / GPTQ-M:Hessian逆的误差补偿
GPTQ(Group-wise Precision Tuning Quantization)的核心洞察是:量化误差可以通过二阶信息进行局部补偿。
对于权重矩阵的每一列 w,GPTQ求解:

GPTQ-M (2025改进版)引入最优分组裁剪阈值,结合2:4结构化稀疏性,实现高达5.3×的GPU推理加速。
论文 :Frantar et al., GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, ICLR 2023
AWQ:激活感知的"保护费"机制
AWQ(Activation-aware Weight Quantization)发现了一个反直觉的事实:仅0.1%-1%的权重通道对模型性能至关重要 ,且这些"显著权重"可通过激活分布(而非权重分布)来识别。
AWQ不直接保留这些显著权重(硬件不友好),而是通过逐通道缩放保护它们:

论文 :Lin et al., AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration, MLSys 2024(Best Paper Award)
AQLM:加法量化的码本革命
AQLM(Additive Quantization of Language Models)将信息检索领域的加法量化(Additive Quantization) 引入LLM压缩。其核心是多码本量化(Multi-Codebook Quantization, MCQ):

论文 :Egiazarian et al., Extreme Compression of Large Language Models via Additive Quantization, 2024
HQQ:无校准的"闪电战"
HQQ(Half-Quadratic Quantization)基于半二次拆分(Half-Quadratic Splitting) 优化,实现完全无需校准数据的量化。通过将量化问题分解为可高效求解的子问题,HQQ将70B模型的量化时间缩短至几分钟------这对于缺乏代表性数据的场景是救命稻草。
论文 :Badri & Shaji, Half-Quadratic Quantization of Large Machine Learning Models, 2023
3.2 权重-激活联合量化:解决异常值难题
SmoothQuant:把烫手山芋扔给权重
SmoothQuant的数学优雅性令人叹服。它通过数学等价变换将激活的量化难度迁移到权重:

论文 :Xiao et al., SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models, 2022/2023
QuaRot:Hadamard变换的降维打击
QuaRot发现,Transformer中的异常值具有方向性 ------它们集中在少数特征维度上。通过随机Hadamard变换(正交旋转),QuaRot将异常值"打散"到所有通道:

这种旋转保持内积不变(计算不变性),但使激活分布更均匀。QuaRot实现了W4A4KV4(4-bit权重+4-bit激活+4-bit KV Cache),Llama2-7B上perplexity损失仅0.63。
论文 :Ashkboos et al., QuaRot: Outlier-Free 4-Bit Inference in Rotated LLMs, NeurIPS 2024
SpinQuant:学习最优旋转
SpinQuant在QuaRot基础上更进一步:既然不同随机旋转性能差异可达13个百分点,为什么不学习 最优旋转矩阵?通过Cayley SGD在Stiefel流形上优化,SpinQuant的W4A4KV4量化在零样本任务上仅比FP16低2.9分------远超LLM-QAT(差距22分)和SmoothQuant(差距25分)。
论文 :Liu et al., SpinQuant: LLM Quantization with Learned Rotations, 2024
3.3 训练感知量化(QAT):精度恢复的最后防线
LLM-QAT / Efficient-QAT
在训练过程中模拟量化前向传播,通过数据无关的知识蒸馏从FP16教师模型指导低比特学生模型。LLM-QAT首次将QAT应用于LLM;Efficient-QAT引入两阶段策略(块级全参数训练 + 端到端量化参数训练)降低计算成本。
3.4 GGUF/GGML格式生态:CPU推理的基石

GGUF(GGML Unified Format)是llama.cpp生态的基石。其K-quants 采用两级层次化量化,堪称"量化中的量化":
Level 1 - Super-Block(如256权重):
-
存储Super-Scale(FP16)和Min/Max(FP16)
-
包含8个Sub-Block
Level 2 - Sub-Block(如32权重):
-
存储Sub-Scale(FP16)
-
权重以4-bit或5-bit存储,带zero-point
反量化公式:

这种设计的关键洞察是:scale本身也可以被量化。通过两级scale,K-quants在相同位宽下比标准Q4_0/Q4_1获得显著更好的质量------因为super-block级别的scale修正了sub-block之间的系统性偏差。
| 格式 | 有效位宽 | 质量评级 | 适用场景 |
|---|---|---|---|
| Q2_K | ~2.6 bit | 低 | 极端压缩,实验性 |
| Q4_K_M | ~4.5 bit | 中高 | 平衡速度与质量 |
| Q5_K_M | ~5.5 bit | 高 | 高质量本地推理 |
| Q6_K | ~6.6 bit | 极高 | 接近FP16体验 |
四、计算机视觉(CV)模型量化与部署框架
CV模型的量化生态与LLM有所不同,更依赖硬件厂商工具链 和传统PTQ/QAT流程。
4.1 TensorRT:显式量化的编译器艺术
TensorRT是NVIDIA GPU上CV模型量化的事实标准 。其量化架构围绕**显式量化(Explicit Quantization)**构建,通过ONNX的Q/DQ节点实现精确控制。

Q/DQ Layer融合规则(核心优化)
TensorRT通过Q/DQ传播实现算子融合:
传播方向:
-
Q节点向后传播:尽早将激活量化到INT8
-
DQ节点向前传播:尽量延迟反量化到FP32
-
约束:仅执行保持算术正确性的变换
典型融合链:
原始图: Input(FP32) → Q → DQ → Conv → ReLU → Q → DQ → Conv → ... ↓ TensorRT优化后 ↓优化图: Input(FP32) → Q → [QConvRelu(INT8→INT8)] → Q → [QConv(INT8→INT8)] → ...
融合规则详解:
| 融合模式 | 输入精度 | 权重精度 | 计算精度 | 输出精度 | 适用场景 |
|---|---|---|---|---|---|
| DQ + Conv + ReLU + Q → QConvRelu | INT8 | INT8 | INT8 Tensor Core | INT8 | 标准卷积块 |
| DQ + Conv + Q → QConv | INT8 | INT8 | INT8 Tensor Core | INT8 | 无ReLU的中间层 |
| DQ + Conv → QConv (INT8→FP32) | INT8 | INT8 | INT8 Tensor Core | FP32 | 网络末尾输出层 |
| DQ + MatMul + Q → QMatMul | INT8 | INT8 | INT8 | INT8 | Transformer注意力 |
重要注意事项:
-
TensorRT自动处理BN+ReLU融合 ,官方建议不要在训练框架中手动模拟此融合
-
精度敏感层避免量化 :LayerNorm、Sigmoid、TanH前不插入Q/DQ ;GeLU、Softmax、ElementWise可插入Q/DQ
-
PyTorch导出的GEMM权重布局为(K,C)且
transB=1,TensorRT会转置,per-channel量化轴为维度0 ;TensorFlow导出权重为(C,K),量化轴为维度1
校准算法数学原理
TensorRT提供三种校准策略:
(1)MinMax校准

特点:
-
特点:简单快速,但对异常值敏感
-
适用 :权重校准推荐
(2)熵校准(Entropy/Entropy2)------默认算法
目标:寻找阈值 T 最小化KL散度

(3)百分位校准

- 特点:排除极端异常值,适合激活值的长尾分布
多精度支持矩阵(TensorRT 10+)
| 精度格式 | 位宽 | 有效范围 | 量化模式 | 硬件要求 | 关键特性 |
|---|---|---|---|---|---|
| INT8 | 8-bit | [-128,127] | 显式/隐式 | Volta+ | 最成熟,支持PTQ校准 |
| FP8 E4M3 | 8-bit | [-448,448] | 仅显式 | Hopper/Ada+ | 4指数3尾数,不能与INT8混用 |
| INT4 | 4-bit | [-8,7] | 仅显式 | Ampere+ | 仅WoQ ,2元素/字节打包 |
| FP4 E2M1 | 4-bit | [-6,6] | 仅显式 | Blackwell | 2指数1尾数,推荐动态量化 |
TensorRT Model Optimizer:统一优化库
NVIDIA推出的TensorRT Model Optimizer (nvidia-modelopt)是面向LLM、CV模型的统一优化工具(TensorRT和TensorRT-LLM):
| 格式 | 描述 | 适用场景 |
|---|---|---|
| Per-Tensor FP8 | 标准全模型FP8量化 | 通用推理 |
| FP8 Block-wise WoQ | 2D块级权重量化 | 内存带宽受限 |
| FP8 Per-Channel + Per-Token | 逐通道权重+动态逐token激活 | LLM高吞吐 |
| NVFP4 | 默认FP4量化(Blackwell) | 极致压缩 |
| INT8 SmoothQuant | W8A8 with SmoothQuant | 通用LLM |
| WA416 (INT4 WoQ) | 4-bit权重+FP16激活 with AWQ | 边缘部署 |
| W4A8 | INT4权重+FP8激活 | 平衡压缩与速度 |
4.2 ONNX Runtime与跨平台方案
| 工具 | 优势 | 适用硬件 |
|---|---|---|
| ONNX Runtime静态量化 | 跨平台,静态/动态量化 | CPU/GPU/ARM |
| ONNX Runtime动态量化 | 无需校准数据 | CPU |
| OpenVINO | Intel硬件深度优化 | Intel CPU/GPU/FPGA |
| PyTorch FX Graph Mode | 与PyTorch生态无缝集成 | CPU/GPU |
4.3 移动端量化框架:TFLite、NCNN与生态
TensorFlow Lite:Google的移动量化标准
TensorFlow Lite是Google官方的移动端推理框架,提供完整的量化工具链:
PTQ模式:
-
动态范围量化:仅权重转INT8,激活仍用FP32计算
-
全整数量化:权重和激活均转INT8,需校准数据集确定scale和zero-point
-
FP16量化:权重转FP16,精度损失小
QAT模式:
import tensorflow_model_optimization as tfmot# 在模型中插入FakeQuantize层quantize_model = tfmot.quantization.keras.quantize_modelq_aware_model = quantize_model(model)# 训练时模拟量化效果,使用STE传播梯度q_aware_model.compile(optimizer='adam', loss='sparse_categorical_crossentropy')q_aware_model.fit(x_train, y_train, epochs=5)
关键特性:
-
支持Edge TPU硬件加速
-
与Android/iOS原生集成
-
模型大小减少约75%
NCNN:腾讯的高性能移动端推理引擎
NCNN是腾讯开源的无第三方依赖的移动端推理框架,专为ARM CPU优化。
量化流程:
-
模型优化 :
ncnnoptimize进行层融合和内存优化 -
生成校准表 :
ncnn2table使用KL散度或ACIQ算法 -
量化模型 :
ncnn2int8将FP32权重转为INT8
校准命令:
./ncnn2table mobilenet-opt.param mobilenet-opt.bin imagelist.txt mobilenet.table \mean=[104,117,123]norm=[0.017,0.017,0.017]shape=[224,224,3]pixel=BGR thread=8method=kl
关键特性:
-
支持混合精度推理:在校准表中注释掉某层的scale即可保持FP32
-
量化层:Conv、DepthwiseConv、InnerProduct、RNN、LSTM、GRU、Embed、Gemm、MultiHeadAttention、SDPA
-
自动检测INT8权重并使用INT8执行路径
校准算法:
-
KL散度:最小化原始分布与量化分布的KL散度(推荐,精度更好)
-
ACIQ(Analytical Clipping for Integer Quantization):基于分析的量化方法
最佳实践:
-
校准数据集应代表实际场景,建议≥5000张图像
-
预处理参数必须与训练时一致
-
先尝试全INT8量化,如精度下降明显再考虑混合精度
其他边缘框架
| 框架 | 厂商 | 特点 |
|---|---|---|
| MNN | 阿里巴巴 | 支持ARM CPU/GPU、Vulkan、OpenCL,INT8/FP16混合精度 |
| MACE | 小米 | 针对骁龙DSP优化,支持Hexagon NN加速 |
| TNN | 腾讯 | 与NCNN互补,专注ARM GPU和NPU加速 |
| Paddle Lite | 百度 | 与飞桨训练框架深度集成,支持华为NPU |
五、2026年量化前沿突破

2026年,量化领域迎来了爆发式创新。ICLR、AAAI、EuroMLSys等顶级会议上的新工作,正在重新定义压缩的极限。
5.1 TurboQuant:极坐标量化的KV Cache革命
TurboQuant (ICLR 2026, Google Research)代表了KV Cache压缩的范式转变。它构建了一个数据无关的量化流水线,结合两个关键技术:
PolarQuant(AISTATS 2026):将向量从笛卡尔坐标转换到极坐标系,利用角度信息的低维特性进行压缩。
QJL(Quantized Johnson-Lindenstrauss, AAAI 2025):通过随机投影将高维向量映射到低维空间,同时保持内积近似。

争议:TurboQuant的学术原创性受到质疑。批评者指出其核心思想与早期的向量量化工作存在重叠,且QJL的随机投影理论在LLM长上下文场景下的收敛性证明不够严谨。
5.2 NanoQuant:突破1-Bit下限的Sub-1-Bit量化
NanoQuant (arXiv 2026)是首个支持低于1 bit 的PTQ方法,将Llama2-70B压缩至25.8倍------这意味着平均每个权重仅占约0.55 bit。
核心创新:低秩二进制分解

三步优化流程:
-
误差传播缓解:调整当前块的全精度权重,最小化前面块量化引入的误差
-
低秩二进制初始化:通过ADMM和SVID初始化二进制因子
-
因子化组件精调:使用STE联合优化连续潜在代理和缩放向量
实验结果:在0.55 bit/weight下,NanoQuant在Llama-2-70B上的WikiText-2 perplexity为9.82,显著优于同压缩比的STBLLM。
5.3 MR-GPTQ:为FP4硬件量身定制的量化算法
MR-GPTQ (Micro-Rotated-GPTQ, ICLR 2026, IST Austria + ETH Zürich)是首个针对微缩放FP4格式(MXFP4和NVFP4)专门优化的PTQ算法。
FP4的挑战:
-
NVFP4 :小组大小会证明性地抵消传统异常值缓解技术
-
MXFP4:2的幂次scale量化因高诱导误差严重降低精度
MR-GPTQ的解决方案:
-
块级Hadamard变换:在量化前旋转权重矩阵基,使异常值分布到所有通道
-
格式特定优化:针对FP4的E2M1表示定制量化网格
-
融合Kernel:推理时将逆变换融合到权重中,在线计算激活的旋转,开销可忽略
性能:
-
NVIDIA B200:层级加速3.6×,端到端2.2×
-
RTX 5090 :层级加速6× ,端到端4×
-
MMLU分数与AWQ INT4相当,MXFP4精度接近NVFP4
意义:MR-GPTQ证明FP4不是INT4的自动升级,但通过格式专用方法可以解锁全新的精度-性能权衡前沿。
5.4 DASH-Q:极低比特的稳健性突破
DASH-Q (EuroMLSys 2026, Seoul National University + Hanyang University)解决了Hessian-based PTQ方法在低位宽时的核心问题:采样噪声。
问题诊断:GPTQ等方法的非对角Hessian项对校准数据的批次间方差高度敏感,导致低位宽时的交叉通道补偿过拟合。
DASH-Q的解决方案:
-
对角Hessian近似:丢弃噪声敏感的非对角依赖,保留稳定的特征重要性
-
迭代加权最小二乘:将对角Hessian转化为独立的加权最小二乘问题,每个问题有闭式解
实验结果:
-
在Llama-3.1-8B的2-bit量化下,DASH-Q达到56.52%平均准确率,比OWQ高14.01%,比GPTQ高1.59×
-
在Qwen3-14B上,2-bit时DASH-Q与QuaRot几乎持平
-
平均零样本准确率提升7.01% ,最高14.01%
5.5 SpecQuant:频域视角的量化新范式
SpecQuant (AAAI 2026, Shanghai Jiao Tong University)从傅里叶频率域重新审视LLM量化,提出了两阶段框架:
Stage 1 - 激活平滑:通过基于缩放的平滑将激活异常值迁移到权重域。
Stage 2 - 通道级低频频谱截断:对每个通道的平滑权重向量进行FFT变换,保留低频分量,抑制高频噪声。
核心洞察 :权重在傅里叶域中表现出强烈的低频偏置------大部分能量集中在低频分量,这些分量可以用更高精度保留,而高频残差用低精度量化。
量化策略:
-
低频分量:16-bit高精度
-
高频残差:4-bit低精度
结果 :在LLaMA-3 8B上实现W4A4量化,零样本准确率差距仅1.5%,推理速度提升2倍,内存降低3倍。
5.6 GlowQ:选择性低秩补偿的高效实现
GlowQ(arXiv 2026)解决了低秩校正方法的效率问题。
现有问题:LQER、QERA等方法为每一层插入误差校正模块,增加延迟和内存开销。
GlowQ方案:
-
组共享右因子:为输入共享组缓存单个共享右因子,跨模块复用
-
选择性应用:GlowQ-S仅在对精度提升最大的层/组应用校正
性能:
-
GlowQ:TTFB降低5.6%,吞吐量提升9.6%,WikiText-2 perplexity降低0.17%
-
GlowQ-S :TTFB降低23.4% ,吞吐量提升37.4%,精度损失仅0.2%
5.7 CoQuant:联合子空间投影
CoQuant (arXiv 2026)指出现有混合精度方法仅依赖激活统计构建子空间,忽略了线性操作中输出扰动由权重和激活量化噪声联合驱动的本质。
理论贡献 :通过建模期望输出误差,CoQuant推导出闭式加权PCA解,平衡权重和激活的协方差以选择最优高精度子空间。
实验:在Llama-3.2和Qwen2.5上,CoQuant在WikiText perplexity和零样本推理准确率上均优于强PTQ基线。
5.8 FLRQ:灵活低秩选择的快速算法
FLRQ (AAAI 2026)解决了低秩PTQ中秩选择的计算瓶颈。
核心组件:
-
R1-FLR:使用R1-Sketch(高斯投影)实现快速低秩近似,支持逐层异常值感知的秩提取
-
BLC(Best Low-rank Approximation under Clipping):通过迭代方法最小化缩放和裁剪策略下的低秩量化误差
FLRQ在量化质量和算法效率上均达到SOTA。
六、方法对比与选型决策
量化决策树
Model Type?
/ \
LLM/VLM CV/ViT
| |
Deployment Env? Target Hardware?
/ \ / \
CPU/Edge GPU/Cloud NVIDIA Cross-Platform
| | | |
GGUF TensorRT TensorRT ONNX Runtime
(Q4_K_M) -LLM (INT8/FP8) (Static/Dynamic)
llama.cpp (FP8/ PTQ+Calib OpenVINO/TFLite
ollama INT4/FP4) ARM/Intel/AMD
vLLM/
Triton
| |
Precision Req? Quantization
/ \ Strategy?
High(Loss<0.5) Acceptable / \
| | PTQ(Fast) QAT(Best)
AWQ/GPTQ QuaRot/HQQ | |
(W4/W8) (W4A4/W4A8) Entropy FakeQuant
SmoothQuant AQLM W2-W3 Calibration + STE
SpinQuant Extreme (MinMax/ Fine-tune
compression Percentile) recovery
Batch≥16 Export ONNX
Q/DQ
6.1 大模型量化方法对比
| 方法 | 类型 | 位宽 | 校准数据 | 核心机制 | 适用场景 | 代表论文 |
|---|---|---|---|---|---|---|
| GPTQ | PTQ | W3-4 | 需要 | Hessian逆补偿误差 | 大模型权重压缩 | ICLR 2023 |
| AWQ | PTQ | W4 | 少量(16seq) | 激活感知逐通道缩放 | 边缘部署/多模态 | MLSys 2024 |
| AQLM | PTQ | W2-3 | 需要 | 加法量化+码本学习 | 极端压缩 | 2024 |
| HQQ | PTQ | W2-8 | 无需 | 半二次拆分优化 | 快速无校准量化 | 2023 |
| SmoothQuant | PTQ | W8A8 | 需要 | 异常值平滑迁移 | 高吞吐推理 | 2022/2023 |
| QuaRot | PTQ | W4A4KV4 | 需要 | Hadamard旋转变换 | 全栈4-bit推理 | NeurIPS 2024 |
| SpinQuant | PTQ | W4A4KV4 | 需要 | 学习最优旋转矩阵 | 高精度低比特 | 2024 |
| NanoQuant | PTQ | <1bit | 需要 | 低秩二进制分解 | 极致压缩 | arXiv 2026 |
| MR-GPTQ | PTQ | FP4 | 需要 | 块级Hadamard for FP4 | FP4硬件优化 | ICLR 2026 |
| DASH-Q | PTQ | W2 | 需要 | 对角Hessian近似 | 极低比特稳健性 | EuroMLSys 2026 |
| SpecQuant | PTQ | W4A4 | 需要 | 傅里叶频域分解 | 频域视角量化 | AAAI 2026 |
| GlowQ | PTQ | W4 | 需要 | 组共享低秩补偿 | 效率优先场景 | arXiv 2026 |
| CoQuant | PTQ | W4A4 | 需要 | 联合子空间投影 | 协方差建模 | arXiv 2026 |
| FLRQ | PTQ | W4 | 需要 | R1-Sketch快速秩提取 | 灵活低秩选择 | AAAI 2026 |
| GGUF/GGML | 格式生态 | W2-8 | 量化时决定 | 分块均匀/K-quant | CPU本地推理 | llama.cpp |
| EETQ | PTQ | W8 | 需要 | 快速权重量化 | 快速部署 | NVIDIA |
6.2 CV模型量化方法对比
| 方法/工具 | 量化类型 | 位宽支持 | 校准算法 | 硬件支持 | 适用模型 | 核心优势 |
|---|---|---|---|---|---|---|
| TensorRT PTQ | PTQ(校准) | INT8/FP8/FP16/INT4/FP4 | Entropy/MinMax/Percentile | NVIDIA GPU | CNN/Transformer/LLM | 极致性能,层融合,Tensor Core |
| TensorRT QAT | QAT(训练) | INT8/FP8/FP16 | Fake Quantization(STE) | NVIDIA GPU | CNN/Transformer/LLM | 精度恢复,训练感知 |
| ONNX Runtime静态量化 | PTQ | INT8 | MinMax/Entropy/Percentile | CPU/GPU/ARM | CNN/ViT | 跨平台,易部署 |
| ONNX Runtime动态量化 | 动态PTQ | INT8 | 运行时动态计算 | CPU | CNN/ViT | 无需校准数据 |
| TensorFlow Lite | PTQ/QAT | INT8/FP16 | 代表性数据集 | CPU/ARM/Edge TPU | MobileNet/EfficientNet | 移动端优化,量化-aware训练 |
| NCNN | PTQ | INT8 | KL散度/ACIQ | ARM/x86 | CNN/ViT | 高性能移动端,无第三方依赖 |
| OpenVINO | PTQ | INT8/FP16 | Default/AccuracyAware | Intel CPU/GPU/FPGA | ResNet/YOLO | Intel硬件深度优化 |
| PyTorch FX Graph Mode | PTQ/QAT | INT8/FP16 | MinMax/Entropy | CPU/GPU | ResNet/ViT | 与PyTorch生态无缝集成 |
6.3 选型决策树
LLM场景:
CPU/边缘部署 → GGUF/GGML(K-quants)
-
Q4_K_M:平衡速度与质量
-
Q5_K_M:高质量本地推理
-
llama.cpp / ollama生态
GPU/云端部署 → TensorRT-LLM / vLLM
-
FP8(Hopper/Ada+):最佳性能
-
INT8 SmoothQuant:通用高吞吐
-
INT4 WoQ:内存受限场景
精度要求极高 → AWQ / SpinQuant / CoQuant
-
AWQ W4:边缘部署首选
-
SpinQuant W4A4KV4:学习式旋转,精度损失<3分
-
CoQuant W4A4:联合协方差建模
快速无校准 → HQQ
-
70B模型几分钟完成量化
-
适合缺乏代表性数据的场景
极致压缩 → NanoQuant / AQLM
-
NanoQuant <1bit:25.8×压缩
-
AQLM W2-W3:码本学习
CV场景:
NVIDIA GPU → TensorRT
-
显式Q/DQ,PTQ+熵校准
-
INT8/FP8/FP4多精度支持
-
层融合+Tensor Core极致优化
跨平台 → ONNX Runtime
-
静态量化(MinMax/Entropy/Percentile)
-
动态量化(无需校准)
-
OpenVINO / TFLite作为替代
移动端 → TFLite / NCNN
-
TFLite:Google生态,Edge TPU加速
-
NCNN:腾讯开源,ARM NEON优化,无第三方依赖
精度优先 → QAT
-
PyTorch/TensorFlow FakeQuant + STE
-
微调恢复精度
-
导出ONNX Q/DQ → TensorRT免校准
七、未来趋势与总结
7.1 2026年五大趋势
-
位宽下限被击穿:NanoQuant证明通过低秩分解,有效位宽可以低于1 bit
-
硬件-算法协同设计:MR-GPTQ为FP4定制,TurboQuant为KV Cache定制------通用算法让位于专用优化
-
噪声vs信号的哲学 :DASH-Q通过对角Hessian丢弃噪声,SpecQuant通过频域滤波保留信号------知道丢弃什么比知道保留什么更重要
-
效率与精度并重 :GlowQ和FLRQ证明,量化不仅是精度问题,更是系统效率问题(TTFB、吞吐量)
-
移动端生态成熟:TFLite和NCNN等框架的量化工具链已足够成熟,算法创新正在快速下沉到工程实践
7.2 量化背后的核心追问:什么才是重要的
量化不仅仅是数值压缩技术,更是一种资源约束下的优化哲学****。它迫使我们回答一个根本问题:在有限的信息带宽下,什么是最重要的?
GPTQ用Hessian逆告诉我们:误差的传播是有结构的;AWQ用激活分布告诉我们:显著性不在权重本身,而在权重与数据的交互;TensorRT用Q/DQ融合告诉我们:硬件与算法的协同设计才是终极答案;GGUF的K-quants告诉我们:量化可以递归,压缩的极限是信息的本质。
当FP4的4-bit权重在Blackwell GPU上飞驰,当Q2_K的2.6-bit模型在笔记本CPU上运行Llama-3,当NanoQuant的<1-bit权重让70B模型塞进8GB显存------我们正在见证一个**"大模型小设备"**的时代真正到来。
而站在这个前沿上的工程师,需要的不仅是对算法的理解,更是对硬件、编译器、数值分析和信息论的综合洞察。
这就是量化的的极致压缩艺术。
参考资源
经典方法
| 方法 | 论文 | 年份 | 会议 |
|---|---|---|---|
| GPTQ | Frantar et al., GPTQ: Accurate Post-Training Quantization | 2023 | ICLR |
| AWQ | Lin et al., Activation-aware Weight Quantization | 2024 | MLSys (Best Paper) |
| AQLM | Egiazarian et al., Extreme Compression via Additive Quantization | 2024 | arXiv |
| HQQ | Badri & Shaji, Half-Quadratic Quantization | 2023 | 技术博客 |
| SmoothQuant | Xiao et al., SmoothQuant | 2022/2023 | MIT/微软 |
| QuaRot | Ashkboos et al., Outlier-Free 4-Bit Inference in Rotated LLMs | 2024 | NeurIPS |
| SpinQuant | Liu et al., SpinQuant: LLM Quantization with Learned Rotations | 2024 | arXiv |
| GGUF | llama.cpp社区规范 | 2023 | 开源项目 |
2026年新方法
| 方法 | 论文/来源 | 会议/年份 | 核心贡献 |
|---|---|---|---|
| TurboQuant | Google Research | ICLR 2026 | PolarQuant + QJL,6× KV Cache压缩 |
| MR-GPTQ | IST Austria + ETH | ICLR 2026 | FP4硬件定制,6×层级加速 |
| NanoQuant | arXiv 2602.06694 | arXiv 2026 | Sub-1-Bit PTQ,25.8×压缩 |
| DASH-Q | SNU + Hanyang | EuroMLSys 2026 | 对角Hessian,极低比特稳健性 |
| SpecQuant | SJTU | AAAI 2026 | 傅里叶频域分解,W4A4精度损失1.5% |
| GlowQ | arXiv 2603.25385 | arXiv 2026 | 组共享低秩补偿,TTFB降低23.4% |
| CoQuant | arXiv 2604.26378 | arXiv 2026 | 联合子空间投影 |
| FLRQ | AAAI 2026 | AAAI 2026 | R1-Sketch快速秩提取 |
工程框架
| 框架 | 厂商 | 文档/来源 |
|---|---|---|
| TensorRT | NVIDIA | NVIDIA Developer Guide |
| TensorFlow Lite | 官方文档 | |
| NCNN | 腾讯 | GitHub Wiki |
| ONNX Runtime | 微软 | 官方文档 |
创作不易,禁止抄袭,转载请附上原文链接及标题