量化：LLM与CV模型的极致压缩艺术

一、引言：为什么量化是AI落地的末端环节

2023年，GPT-4的参数量传闻超过1.8万亿；2024年，Llama 3.1 405B开源；2025年，Qwen3-VL-2B试图在手机上运行多模态推理。模型规模的指数级增长与硬件资源的线性增长之间，横亘着一道名为推理成本的鸿沟。

量化（Quantization）的本质，是用信息论 的视角重新审视神经网络：我们真的需要32位浮点数来表示每一个权重吗？一个经过预训练的Transformer，其权重分布往往呈现出强烈的结构性------大部分参数集中在零附近，少数"显著权重"承载着关键语义。量化要做的，就是在最小化信息损失的前提下，用更少的比特编码这些参数。

但这绝非简单的"四舍五入"。从GPTQ的Hessian逆矩阵补偿，到TensorRT的Q/DQ图融合，再到GGUF的"量化的量化"------这条技术谱系背后，是编译器理论、数值分析、硬件架构与机器学习的多学科交叉。

本文将带你穿越这条技术谱系，从大语言模型（LLM） 到计算机视觉（CV）模型 ，再到2026年最新突破，构建一幅完整的量化压缩全景图。

二、量化基础：信息论视角与工程实践

2.1 浮点表示与量化误差

IEEE 754单精度浮点数（FP32）用32比特编码：1位符号、8位指数、23位尾数。对于神经网络权重，这种表示是严重过剩的。量化将其映射到低比特整数空间：

2.2 静态量化 vs 动态量化 vs 训练感知量化

维度	静态量化 (PTQ)	动态量化	训练感知量化 (QAT)
Scale确定	校准数据集预计算	运行时动态计算	训练时学习
是否需要训练	否	否	是（微调）
延迟	低（无运行时开销）	高（需统计范围）	低
精度	中高	中	最高
适用场景	生产部署	快速原型	精度敏感场景

2.3 量化粒度：从张量到通道到块

粒度模式	适用对象	Scale计算	精度	硬件友好度
Per-tensor	激活值	单一标量	低	高
Per-channel	权重（Conv/FC）	沿输出通道广播	中	中
Per-token	激活（LLM动态）	逐token计算	高	低
Block	权重（INT4/FP4）	1D块共享	中	高

三、大语言模型（LLM）量化方法谱系

LLM的量化面临一个独特挑战：激活异常值（Activation Outliers）。MIT的研究发现，Transformer中少数通道的激活幅度比正常值大100-300倍，这些"离群值"像钉子户一样占据着动态范围，迫使其他正常值被压缩到极小的表示空间。

上图展示了不同量化方法在压缩率 vs 精度损失平面上的分布。可以清晰看到三个区域：

生产就绪区（Loss < 1.0）：FP16、INT8 SmoothQuant、AWQ W4、GGUF Q6_K、SpecQuant W4A4、CoQuant W4A4
可接受区（1.0 < Loss < 3.0）：GPTQ W4、QuaRot W4A4、AQLM W2、DASH-Q W2、MR-GPTQ FP4
实验区（Loss > 3.0）：GGUF Q2_K、FP4 E2M1、NanoQuant ~0.8bit

3.1 后训练量化（PTQ）：无需重新训练的压缩艺术

GPTQ / GPTQ-M：Hessian逆的误差补偿

GPTQ（Group-wise Precision Tuning Quantization）的核心洞察是：量化误差可以通过二阶信息进行局部补偿。

对于权重矩阵的每一列 w，GPTQ求解：

GPTQ-M （2025改进版）引入最优分组裁剪阈值，结合2:4结构化稀疏性，实现高达5.3×的GPU推理加速。

论文：Frantar et al., GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, ICLR 2023

AWQ：激活感知的"保护费"机制

AWQ（Activation-aware Weight Quantization）发现了一个反直觉的事实：仅0.1%-1%的权重通道对模型性能至关重要 ，且这些"显著权重"可通过激活分布（而非权重分布）来识别。

AWQ不直接保留这些显著权重（硬件不友好），而是通过逐通道缩放保护它们：

论文：Lin et al., AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration, MLSys 2024（Best Paper Award）

AQLM：加法量化的码本革命

AQLM（Additive Quantization of Language Models）将信息检索领域的加法量化（Additive Quantization） 引入LLM压缩。其核心是多码本量化（Multi-Codebook Quantization, MCQ）：

论文：Egiazarian et al., Extreme Compression of Large Language Models via Additive Quantization, 2024

HQQ：无校准的"闪电战"

HQQ（Half-Quadratic Quantization）基于半二次拆分（Half-Quadratic Splitting） 优化，实现完全无需校准数据的量化。通过将量化问题分解为可高效求解的子问题，HQQ将70B模型的量化时间缩短至几分钟------这对于缺乏代表性数据的场景是救命稻草。

论文：Badri & Shaji, Half-Quadratic Quantization of Large Machine Learning Models, 2023

3.2 权重-激活联合量化：解决异常值难题

SmoothQuant：把烫手山芋扔给权重

SmoothQuant的数学优雅性令人叹服。它通过数学等价变换将激活的量化难度迁移到权重：

论文：Xiao et al., SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models, 2022/2023

QuaRot：Hadamard变换的降维打击

QuaRot发现，Transformer中的异常值具有方向性 ------它们集中在少数特征维度上。通过随机Hadamard变换（正交旋转），QuaRot将异常值"打散"到所有通道：

这种旋转保持内积不变（计算不变性），但使激活分布更均匀。QuaRot实现了W4A4KV4（4-bit权重+4-bit激活+4-bit KV Cache），Llama2-7B上perplexity损失仅0.63。

论文：Ashkboos et al., QuaRot: Outlier-Free 4-Bit Inference in Rotated LLMs, NeurIPS 2024

SpinQuant：学习最优旋转

SpinQuant在QuaRot基础上更进一步：既然不同随机旋转性能差异可达13个百分点，为什么不学习最优旋转矩阵？通过Cayley SGD在Stiefel流形上优化，SpinQuant的W4A4KV4量化在零样本任务上仅比FP16低2.9分------远超LLM-QAT（差距22分）和SmoothQuant（差距25分）。

论文：Liu et al., SpinQuant: LLM Quantization with Learned Rotations, 2024

3.3 训练感知量化（QAT）：精度恢复的最后防线

LLM-QAT / Efficient-QAT

在训练过程中模拟量化前向传播，通过数据无关的知识蒸馏从FP16教师模型指导低比特学生模型。LLM-QAT首次将QAT应用于LLM；Efficient-QAT引入两阶段策略（块级全参数训练 + 端到端量化参数训练）降低计算成本。

3.4 GGUF/GGML格式生态：CPU推理的基石

GGUF（GGML Unified Format）是llama.cpp生态的基石。其K-quants 采用两级层次化量化，堪称"量化中的量化"：

Level 1 - Super-Block（如256权重）：

存储Super-Scale（FP16）和Min/Max（FP16）
包含8个Sub-Block

Level 2 - Sub-Block（如32权重）：

存储Sub-Scale（FP16）
权重以4-bit或5-bit存储，带zero-point

反量化公式：

这种设计的关键洞察是：scale本身也可以被量化。通过两级scale，K-quants在相同位宽下比标准Q4_0/Q4_1获得显著更好的质量------因为super-block级别的scale修正了sub-block之间的系统性偏差。

格式	有效位宽	质量评级	适用场景
Q2_K	~2.6 bit	低	极端压缩，实验性
Q4_K_M	~4.5 bit	中高	平衡速度与质量
Q5_K_M	~5.5 bit	高	高质量本地推理
Q6_K	~6.6 bit	极高	接近FP16体验

四、计算机视觉（CV）模型量化与部署框架

CV模型的量化生态与LLM有所不同，更依赖硬件厂商工具链 和传统PTQ/QAT流程。

4.1 TensorRT：显式量化的编译器艺术

TensorRT是NVIDIA GPU上CV模型量化的事实标准 。其量化架构围绕**显式量化（Explicit Quantization）**构建，通过ONNX的Q/DQ节点实现精确控制。

Q/DQ Layer融合规则（核心优化）

TensorRT通过Q/DQ传播实现算子融合：

传播方向：

Q节点向后传播：尽早将激活量化到INT8
DQ节点向前传播：尽量延迟反量化到FP32
约束：仅执行保持算术正确性的变换

典型融合链：

原始图: Input(FP32) → Q → DQ → Conv → ReLU → Q → DQ → Conv → ... ↓ TensorRT优化后 ↓优化图: Input(FP32) → Q → [QConvRelu(INT8→INT8)] → Q → [QConv(INT8→INT8)] → ...

融合规则详解：

融合模式	输入精度	权重精度	计算精度	输出精度	适用场景
DQ + Conv + ReLU + Q → QConvRelu	INT8	INT8	INT8 Tensor Core	INT8	标准卷积块
DQ + Conv + Q → QConv	INT8	INT8	INT8 Tensor Core	INT8	无ReLU的中间层
DQ + Conv → QConv (INT8→FP32)	INT8	INT8	INT8 Tensor Core	FP32	网络末尾输出层
DQ + MatMul + Q → QMatMul	INT8	INT8	INT8	INT8	Transformer注意力

重要注意事项：

TensorRT自动处理BN+ReLU融合，官方建议不要在训练框架中手动模拟此融合
精度敏感层避免量化 ：LayerNorm、Sigmoid、TanH前不插入Q/DQ ；GeLU、Softmax、ElementWise可插入Q/DQ
PyTorch导出的GEMM权重布局为(K,C)且transB=1，TensorRT会转置，per-channel量化轴为维度0 ；TensorFlow导出权重为(C,K)，量化轴为维度1

校准算法数学原理

TensorRT提供三种校准策略：

（1）MinMax校准

特点：

特点：简单快速，但对异常值敏感
适用：权重校准推荐

（2）熵校准（Entropy/Entropy2）------默认算法

目标：寻找阈值 T 最小化KL散度

（3）百分位校准

特点：排除极端异常值，适合激活值的长尾分布

多精度支持矩阵（TensorRT 10+）

精度格式	位宽	有效范围	量化模式	硬件要求	关键特性
INT8	8-bit	[-128,127]	显式/隐式	Volta+	最成熟，支持PTQ校准
FP8 E4M3	8-bit	[-448,448]	仅显式	Hopper/Ada+	4指数3尾数，不能与INT8混用
INT4	4-bit	[-8,7]	仅显式	Ampere+	仅WoQ ，2元素/字节打包
FP4 E2M1	4-bit	[-6,6]	仅显式	Blackwell	2指数1尾数，推荐动态量化

TensorRT Model Optimizer：统一优化库

NVIDIA推出的TensorRT Model Optimizer （nvidia-modelopt）是面向LLM、CV模型的统一优化工具(TensorRT和TensorRT-LLM)：

格式	描述	适用场景
Per-Tensor FP8	标准全模型FP8量化	通用推理
FP8 Block-wise WoQ	2D块级权重量化	内存带宽受限
FP8 Per-Channel + Per-Token	逐通道权重+动态逐token激活	LLM高吞吐
NVFP4	默认FP4量化（Blackwell）	极致压缩
INT8 SmoothQuant	W8A8 with SmoothQuant	通用LLM
WA416 (INT4 WoQ)	4-bit权重+FP16激活 with AWQ	边缘部署
W4A8	INT4权重+FP8激活	平衡压缩与速度

4.2 ONNX Runtime与跨平台方案

工具	优势	适用硬件
ONNX Runtime静态量化	跨平台，静态/动态量化	CPU/GPU/ARM
ONNX Runtime动态量化	无需校准数据	CPU
OpenVINO	Intel硬件深度优化	Intel CPU/GPU/FPGA
PyTorch FX Graph Mode	与PyTorch生态无缝集成	CPU/GPU

4.3 移动端量化框架：TFLite、NCNN与生态

TensorFlow Lite：Google的移动量化标准

TensorFlow Lite是Google官方的移动端推理框架，提供完整的量化工具链：

PTQ模式：

动态范围量化：仅权重转INT8，激活仍用FP32计算
全整数量化：权重和激活均转INT8，需校准数据集确定scale和zero-point
FP16量化：权重转FP16，精度损失小

QAT模式：

复制代码

import tensorflow_model_optimization as tfmot# 在模型中插入FakeQuantize层quantize_model = tfmot.quantization.keras.quantize_modelq_aware_model = quantize_model(model)# 训练时模拟量化效果，使用STE传播梯度q_aware_model.compile(optimizer='adam', loss='sparse_categorical_crossentropy')q_aware_model.fit(x_train, y_train, epochs=5)

关键特性：

支持Edge TPU硬件加速
与Android/iOS原生集成
模型大小减少约75%

NCNN：腾讯的高性能移动端推理引擎

NCNN是腾讯开源的无第三方依赖的移动端推理框架，专为ARM CPU优化。

量化流程：

模型优化 ：ncnnoptimize 进行层融合和内存优化
生成校准表 ：ncnn2table 使用KL散度或ACIQ算法
量化模型 ：ncnn2int8 将FP32权重转为INT8

校准命令：

复制代码

./ncnn2table mobilenet-opt.param mobilenet-opt.bin imagelist.txt mobilenet.table \mean=[104,117,123]norm=[0.017,0.017,0.017]shape=[224,224,3]pixel=BGR thread=8method=kl

关键特性：

支持混合精度推理：在校准表中注释掉某层的scale即可保持FP32
量化层：Conv、DepthwiseConv、InnerProduct、RNN、LSTM、GRU、Embed、Gemm、MultiHeadAttention、SDPA
自动检测INT8权重并使用INT8执行路径

校准算法：

KL散度：最小化原始分布与量化分布的KL散度（推荐，精度更好）
ACIQ（Analytical Clipping for Integer Quantization）：基于分析的量化方法

最佳实践：

校准数据集应代表实际场景，建议≥5000张图像
预处理参数必须与训练时一致
先尝试全INT8量化，如精度下降明显再考虑混合精度

其他边缘框架

框架	厂商	特点
MNN	阿里巴巴	支持ARM CPU/GPU、Vulkan、OpenCL，INT8/FP16混合精度
MACE	小米	针对骁龙DSP优化，支持Hexagon NN加速
TNN	腾讯	与NCNN互补，专注ARM GPU和NPU加速
Paddle Lite	百度	与飞桨训练框架深度集成，支持华为NPU

五、2026年量化前沿突破

2026年，量化领域迎来了爆发式创新。ICLR、AAAI、EuroMLSys等顶级会议上的新工作，正在重新定义压缩的极限。

5.1 TurboQuant：极坐标量化的KV Cache革命

TurboQuant （ICLR 2026, Google Research）代表了KV Cache压缩的范式转变。它构建了一个数据无关的量化流水线，结合两个关键技术：

PolarQuant（AISTATS 2026）：将向量从笛卡尔坐标转换到极坐标系，利用角度信息的低维特性进行压缩。

QJL（Quantized Johnson-Lindenstrauss, AAAI 2025）：通过随机投影将高维向量映射到低维空间，同时保持内积近似。

争议：TurboQuant的学术原创性受到质疑。批评者指出其核心思想与早期的向量量化工作存在重叠，且QJL的随机投影理论在LLM长上下文场景下的收敛性证明不够严谨。

5.2 NanoQuant：突破1-Bit下限的Sub-1-Bit量化

NanoQuant （arXiv 2026）是首个支持低于1 bit 的PTQ方法，将Llama2-70B压缩至25.8倍------这意味着平均每个权重仅占约0.55 bit。

核心创新：低秩二进制分解

三步优化流程：

误差传播缓解：调整当前块的全精度权重，最小化前面块量化引入的误差
低秩二进制初始化：通过ADMM和SVID初始化二进制因子
因子化组件精调：使用STE联合优化连续潜在代理和缩放向量

实验结果：在0.55 bit/weight下，NanoQuant在Llama-2-70B上的WikiText-2 perplexity为9.82，显著优于同压缩比的STBLLM。

5.3 MR-GPTQ：为FP4硬件量身定制的量化算法

MR-GPTQ （Micro-Rotated-GPTQ, ICLR 2026, IST Austria + ETH Zürich）是首个针对微缩放FP4格式（MXFP4和NVFP4）专门优化的PTQ算法。

FP4的挑战：

NVFP4 ：小组大小会证明性地抵消传统异常值缓解技术
MXFP4：2的幂次scale量化因高诱导误差严重降低精度

MR-GPTQ的解决方案：

块级Hadamard变换：在量化前旋转权重矩阵基，使异常值分布到所有通道
格式特定优化：针对FP4的E2M1表示定制量化网格
融合Kernel：推理时将逆变换融合到权重中，在线计算激活的旋转，开销可忽略

性能：

NVIDIA B200：层级加速3.6×，端到端2.2×
RTX 5090 ：层级加速6× ，端到端4×
MMLU分数与AWQ INT4相当，MXFP4精度接近NVFP4

意义：MR-GPTQ证明FP4不是INT4的自动升级，但通过格式专用方法可以解锁全新的精度-性能权衡前沿。

5.4 DASH-Q：极低比特的稳健性突破

DASH-Q （EuroMLSys 2026, Seoul National University + Hanyang University）解决了Hessian-based PTQ方法在低位宽时的核心问题：采样噪声。

问题诊断：GPTQ等方法的非对角Hessian项对校准数据的批次间方差高度敏感，导致低位宽时的交叉通道补偿过拟合。

DASH-Q的解决方案：

对角Hessian近似：丢弃噪声敏感的非对角依赖，保留稳定的特征重要性
迭代加权最小二乘：将对角Hessian转化为独立的加权最小二乘问题，每个问题有闭式解

实验结果：

在Llama-3.1-8B的2-bit量化下，DASH-Q达到56.52%平均准确率，比OWQ高14.01%，比GPTQ高1.59×
在Qwen3-14B上，2-bit时DASH-Q与QuaRot几乎持平
平均零样本准确率提升7.01% ，最高14.01%

5.5 SpecQuant：频域视角的量化新范式

SpecQuant （AAAI 2026, Shanghai Jiao Tong University）从傅里叶频率域重新审视LLM量化，提出了两阶段框架：

Stage 1 - 激活平滑：通过基于缩放的平滑将激活异常值迁移到权重域。

Stage 2 - 通道级低频频谱截断：对每个通道的平滑权重向量进行FFT变换，保留低频分量，抑制高频噪声。

核心洞察 ：权重在傅里叶域中表现出强烈的低频偏置------大部分能量集中在低频分量，这些分量可以用更高精度保留，而高频残差用低精度量化。

量化策略：

低频分量：16-bit高精度
高频残差：4-bit低精度

结果：在LLaMA-3 8B上实现W4A4量化，零样本准确率差距仅1.5%，推理速度提升2倍，内存降低3倍。

5.6 GlowQ：选择性低秩补偿的高效实现

GlowQ（arXiv 2026）解决了低秩校正方法的效率问题。

现有问题：LQER、QERA等方法为每一层插入误差校正模块，增加延迟和内存开销。

GlowQ方案：

组共享右因子：为输入共享组缓存单个共享右因子，跨模块复用
选择性应用：GlowQ-S仅在对精度提升最大的层/组应用校正

性能：

GlowQ：TTFB降低5.6%，吞吐量提升9.6%，WikiText-2 perplexity降低0.17%
GlowQ-S ：TTFB降低23.4% ，吞吐量提升37.4%，精度损失仅0.2%

5.7 CoQuant：联合子空间投影

CoQuant （arXiv 2026）指出现有混合精度方法仅依赖激活统计构建子空间，忽略了线性操作中输出扰动由权重和激活量化噪声联合驱动的本质。

理论贡献 ：通过建模期望输出误差，CoQuant推导出闭式加权PCA解，平衡权重和激活的协方差以选择最优高精度子空间。

实验：在Llama-3.2和Qwen2.5上，CoQuant在WikiText perplexity和零样本推理准确率上均优于强PTQ基线。

5.8 FLRQ：灵活低秩选择的快速算法

FLRQ （AAAI 2026）解决了低秩PTQ中秩选择的计算瓶颈。

核心组件：

R1-FLR：使用R1-Sketch（高斯投影）实现快速低秩近似，支持逐层异常值感知的秩提取
BLC（Best Low-rank Approximation under Clipping）：通过迭代方法最小化缩放和裁剪策略下的低秩量化误差

FLRQ在量化质量和算法效率上均达到SOTA。

六、方法对比与选型决策

量化决策树

复制代码

                        Model Type?
                       /          \
                LLM/VLM          CV/ViT
                   |                |
            Deployment Env?    Target Hardware?
           /           \       /           \
        CPU/Edge     GPU/Cloud  NVIDIA     Cross-Platform
           |            |         |            |
        GGUF         TensorRT  TensorRT    ONNX Runtime
        (Q4_K_M)     -LLM      (INT8/FP8)  (Static/Dynamic)
        llama.cpp    (FP8/     PTQ+Calib   OpenVINO/TFLite
        ollama       INT4/FP4)              ARM/Intel/AMD
                     vLLM/
                     Triton
        |                              |
   Precision Req?                 Quantization
   /           \                   Strategy?
High(Loss<0.5)  Acceptable      /           \
    |              |           PTQ(Fast)    QAT(Best)
  AWQ/GPTQ      QuaRot/HQQ         |            |
  (W4/W8)       (W4A4/W4A8)   Entropy      FakeQuant
  SmoothQuant   AQLM W2-W3    Calibration   + STE
  SpinQuant     Extreme        (MinMax/       Fine-tune
                compression    Percentile)    recovery
                               Batch≥16      Export ONNX
                                             Q/DQ

6.1 大模型量化方法对比

方法	类型	位宽	校准数据	核心机制	适用场景	代表论文
GPTQ	PTQ	W3-4	需要	Hessian逆补偿误差	大模型权重压缩	ICLR 2023
AWQ	PTQ	W4	少量(16seq)	激活感知逐通道缩放	边缘部署/多模态	MLSys 2024
AQLM	PTQ	W2-3	需要	加法量化+码本学习	极端压缩	2024
HQQ	PTQ	W2-8	无需	半二次拆分优化	快速无校准量化	2023
SmoothQuant	PTQ	W8A8	需要	异常值平滑迁移	高吞吐推理	2022/2023
QuaRot	PTQ	W4A4KV4	需要	Hadamard旋转变换	全栈4-bit推理	NeurIPS 2024
SpinQuant	PTQ	W4A4KV4	需要	学习最优旋转矩阵	高精度低比特	2024
NanoQuant	PTQ	<1bit	需要	低秩二进制分解	极致压缩	arXiv 2026
MR-GPTQ	PTQ	FP4	需要	块级Hadamard for FP4	FP4硬件优化	ICLR 2026
DASH-Q	PTQ	W2	需要	对角Hessian近似	极低比特稳健性	EuroMLSys 2026
SpecQuant	PTQ	W4A4	需要	傅里叶频域分解	频域视角量化	AAAI 2026
GlowQ	PTQ	W4	需要	组共享低秩补偿	效率优先场景	arXiv 2026
CoQuant	PTQ	W4A4	需要	联合子空间投影	协方差建模	arXiv 2026
FLRQ	PTQ	W4	需要	R1-Sketch快速秩提取	灵活低秩选择	AAAI 2026
GGUF/GGML	格式生态	W2-8	量化时决定	分块均匀/K-quant	CPU本地推理	llama.cpp
EETQ	PTQ	W8	需要	快速权重量化	快速部署	NVIDIA

6.2 CV模型量化方法对比

方法/工具	量化类型	位宽支持	校准算法	硬件支持	适用模型	核心优势
TensorRT PTQ	PTQ(校准)	INT8/FP8/FP16/INT4/FP4	Entropy/MinMax/Percentile	NVIDIA GPU	CNN/Transformer/LLM	极致性能，层融合，Tensor Core
TensorRT QAT	QAT(训练)	INT8/FP8/FP16	Fake Quantization(STE)	NVIDIA GPU	CNN/Transformer/LLM	精度恢复，训练感知
ONNX Runtime静态量化	PTQ	INT8	MinMax/Entropy/Percentile	CPU/GPU/ARM	CNN/ViT	跨平台，易部署
ONNX Runtime动态量化	动态PTQ	INT8	运行时动态计算	CPU	CNN/ViT	无需校准数据
TensorFlow Lite	PTQ/QAT	INT8/FP16	代表性数据集	CPU/ARM/Edge TPU	MobileNet/EfficientNet	移动端优化，量化-aware训练
NCNN	PTQ	INT8	KL散度/ACIQ	ARM/x86	CNN/ViT	高性能移动端，无第三方依赖
OpenVINO	PTQ	INT8/FP16	Default/AccuracyAware	Intel CPU/GPU/FPGA	ResNet/YOLO	Intel硬件深度优化
PyTorch FX Graph Mode	PTQ/QAT	INT8/FP16	MinMax/Entropy	CPU/GPU	ResNet/ViT	与PyTorch生态无缝集成

6.3 选型决策树

LLM场景：

CPU/边缘部署 → GGUF/GGML（K-quants）

Q4_K_M：平衡速度与质量
Q5_K_M：高质量本地推理
llama.cpp / ollama生态

GPU/云端部署 → TensorRT-LLM / vLLM

FP8（Hopper/Ada+）：最佳性能
INT8 SmoothQuant：通用高吞吐
INT4 WoQ：内存受限场景

精度要求极高 → AWQ / SpinQuant / CoQuant

AWQ W4：边缘部署首选
SpinQuant W4A4KV4：学习式旋转，精度损失<3分
CoQuant W4A4：联合协方差建模

快速无校准 → HQQ

70B模型几分钟完成量化
适合缺乏代表性数据的场景

极致压缩 → NanoQuant / AQLM

NanoQuant <1bit：25.8×压缩
AQLM W2-W3：码本学习

CV场景：

NVIDIA GPU → TensorRT

显式Q/DQ，PTQ+熵校准
INT8/FP8/FP4多精度支持
层融合+Tensor Core极致优化

跨平台 → ONNX Runtime

静态量化（MinMax/Entropy/Percentile）
动态量化（无需校准）
OpenVINO / TFLite作为替代

移动端 → TFLite / NCNN

TFLite：Google生态，Edge TPU加速
NCNN：腾讯开源，ARM NEON优化，无第三方依赖

精度优先 → QAT

PyTorch/TensorFlow FakeQuant + STE
微调恢复精度
导出ONNX Q/DQ → TensorRT免校准

七、未来趋势与总结

7.1 2026年五大趋势

位宽下限被击穿：NanoQuant证明通过低秩分解，有效位宽可以低于1 bit
硬件-算法协同设计：MR-GPTQ为FP4定制，TurboQuant为KV Cache定制------通用算法让位于专用优化
噪声vs信号的哲学 ：DASH-Q通过对角Hessian丢弃噪声，SpecQuant通过频域滤波保留信号------知道丢弃什么比知道保留什么更重要
效率与精度并重 ：GlowQ和FLRQ证明，量化不仅是精度问题，更是系统效率问题（TTFB、吞吐量）
移动端生态成熟：TFLite和NCNN等框架的量化工具链已足够成熟，算法创新正在快速下沉到工程实践

7.2 量化背后的核心追问：什么才是重要的

量化不仅仅是数值压缩技术，更是一种资源约束下的优化哲学****。它迫使我们回答一个根本问题：在有限的信息带宽下，什么是最重要的？

GPTQ用Hessian逆告诉我们：误差的传播是有结构的；AWQ用激活分布告诉我们：显著性不在权重本身，而在权重与数据的交互；TensorRT用Q/DQ融合告诉我们：硬件与算法的协同设计才是终极答案；GGUF的K-quants告诉我们：量化可以递归，压缩的极限是信息的本质。

当FP4的4-bit权重在Blackwell GPU上飞驰，当Q2_K的2.6-bit模型在笔记本CPU上运行Llama-3，当NanoQuant的<1-bit权重让70B模型塞进8GB显存------我们正在见证一个**"大模型小设备"**的时代真正到来。

而站在这个前沿上的工程师，需要的不仅是对算法的理解，更是对硬件、编译器、数值分析和信息论的综合洞察。

这就是量化的的极致压缩艺术。

参考资源

经典方法

方法	论文	年份	会议
GPTQ	Frantar et al., GPTQ: Accurate Post-Training Quantization	2023	ICLR
AWQ	Lin et al., Activation-aware Weight Quantization	2024	MLSys (Best Paper)
AQLM	Egiazarian et al., Extreme Compression via Additive Quantization	2024	arXiv
HQQ	Badri & Shaji, Half-Quadratic Quantization	2023	技术博客
SmoothQuant	Xiao et al., SmoothQuant	2022/2023	MIT/微软
QuaRot	Ashkboos et al., Outlier-Free 4-Bit Inference in Rotated LLMs	2024	NeurIPS
SpinQuant	Liu et al., SpinQuant: LLM Quantization with Learned Rotations	2024	arXiv
GGUF	llama.cpp社区规范	2023	开源项目

2026年新方法

方法	论文/来源	会议/年份	核心贡献
TurboQuant	Google Research	ICLR 2026	PolarQuant + QJL，6× KV Cache压缩
MR-GPTQ	IST Austria + ETH	ICLR 2026	FP4硬件定制，6×层级加速
NanoQuant	arXiv 2602.06694	arXiv 2026	Sub-1-Bit PTQ，25.8×压缩
DASH-Q	SNU + Hanyang	EuroMLSys 2026	对角Hessian，极低比特稳健性
SpecQuant	SJTU	AAAI 2026	傅里叶频域分解，W4A4精度损失1.5%
GlowQ	arXiv 2603.25385	arXiv 2026	组共享低秩补偿，TTFB降低23.4%
CoQuant	arXiv 2604.26378	arXiv 2026	联合子空间投影
FLRQ	AAAI 2026	AAAI 2026	R1-Sketch快速秩提取

工程框架

框架	厂商	文档/来源
TensorRT	NVIDIA	NVIDIA Developer Guide
TensorFlow Lite	Google	官方文档
NCNN	腾讯	GitHub Wiki
ONNX Runtime	微软	官方文档

创作不易，禁止抄袭，转载请附上原文链接及标题