检索并综述了 10 篇核心文献,涵盖:
文献 方法 亮点
1 FQ-ViT (CVPR 2022) PTQ PoT 因子 + 对数量化 Softmax,首次完全整数推理
2 Q-ViT (NeurIPS 2022) QAT 信息修复 + 分布蒸馏,超越全精度 +1%
3 Variation-aware (ICLR 2024) QAT 知识蒸馏 + 变异性正则,2-bit Swin-T 77.66%
4 PTQ4ViT (ICML 2022) PTQ 双均匀量化 + Hessian 度量
5 AIQViT (AAAI 2023) PTQ 低秩补偿 + 动态聚焦量化
6 IPTQ-ViT (2022) PTQ 多项式 GELU + 位移 Softmax
7 ERQ (ICML 2024) PTQ 激活/权重误差两阶段协同,超越 GPTQ 最高 36.81%
8 P2-ViT (2023) PTQ 2 的幂次缩放 + 硬件加速器,10.1× 加速
9 IGQ-ViT (CVPR 2024) PTQ 实例感知分组量化,4-bit 达 73.61%
10 LRP-QViT (2024) PTQ LRP 可解释性驱动混合精度
综述包含方法分类对比表、技术演进趋势分析,以及亚 2-bit 量化、激活/权重耦合、低阶视觉任务适配等未来方向。
综述:Vision Transformer 的完全量化(Fully Quantized Vision Transformers)
基于 FQ-ViT 及其相关工作的十篇核心文献综述
摘要
Vision Transformer(ViT)在图像分类、目标检测、语义分割等计算机视觉任务中取得了超越卷积神经网络的卓越性能。然而,ViT 庞大的参数量和计算复杂度使其难以部署到资源受限的边缘设备上。模型量化作为一种高效的压缩技术,通过将高精密浮点参数映射到低位宽整数量级,显著降低存储与计算开销。本文围绕 FQ-ViT(Fully Quantized Vision Transformer) 这一开创性工作,系统综述了 2022--2024 年间 Vision Transformer 量化领域的 10 篇核心文献,涵盖训练感知量化(QAT)、后训练量化(PTQ)、混合精度量化、硬件协同设计等方向,并讨论未来的研究方向。
1. 引言
1.1 背景
Transformer 架构自 NLP 领域兴起后,Vision Transformer(ViT)[Dosovitskiy et al., ICLR 2021] 将其成功引入视觉任务。与 CNN 不同,ViT 通过自注意力机制建模全局依赖,但其二次复杂度(O(n²))和大量参数使其在边缘设备上部署困难。
1.2 为什么 ViT 量化更难?
直接将 CNN 的量化方法应用于 ViT 往往导致超过 1% 的精度损失,即使是 8-bit 量化也不行。ViT 特有的挑战包括:
- LayerNorm 和 Softmax 的量化瓶颈:LayerNorm 输出的通道间方差极大,Softmax 注意力分布极端不均匀(大部分值接近 0,少数接近 1)
- 激活值分布异常:post-softmax 和 post-GELU 激活值显著偏离高斯分布
- 实例级变异性:不同输入样本的激活分布差异剧烈,使得层-wise 或通道-wise 量化策略难以兼顾
- 量化感知训练的振荡:ViT 内部不同模块对量化的敏感性差异巨大,导致 QAT 训练不稳定
1.3 本文贡献
系统梳理 10 篇代表性文献,按方法类型归纳,揭示技术演进脉络,并指出未来方向。
2. 核心文献综述
2.1 【开创性工作】FQ-ViT (CVPR 2022)
完整引用 : Wang, B., et al. "FQ-ViT: Post-Training Quantization for Fully Quantized Vision Transformer." CVPR 2022.
问题: 传统 CNN 量化方法直接应用于 ViT 时精度严重下降,主要源于 LayerNorm 和 Softmax 的量化困难。
核心创新:
| 模块 | 方法 | 作用 |
|---|---|---|
| PTF(Power-of-Two Factor) | 为不同通道赋予不同的 2 的幂次因子 | 结合层-wise 和通道-wise 量化的优点,缓解 LayerNorm 输入/输出的高方差激活误差 |
| LIS(Log-Int-Softmax) | 对 Softmax 注意力使用对数量化 | 保留更多量化层级在密集的小值区域,用 BitShift 算子简化推理 |
结果: 在 ImageNet 上,ViT-L 全量化精度约 84.89%(仅下降 ~1%);Swin-S on COCO 达到 50.8 mAP。
意义: 首次实现了 ViT 的完全整数推理(fully integer-only inference),无需任何浮点中间计算。
2.2 【QAT】Q-ViT (NeurIPS 2022)
完整引用 : Yang, Z., et al. "Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer." NeurIPS 2022.
问题: 自注意力机制中的信息失真(information distortion)是低比特 ViT 精度下降的主要瓶颈。
核心创新:
| 模块 | 方法 | 作用 |
|---|---|---|
| IRM(Information Rectification Module) | 对注意力模块中的量化表示应用最大化信息熵映射 | 恢复被量化破坏的图像表示 |
| DGD(Distribution Guided Distillation) | 利用相似性矩阵中的知识消除量化前后分布不匹配 | 引导量化训练过程 |
结果: ViT-S 理论上加速 6.14×,在 ImageNet 上达到 ~80.9% Top-1 精度(甚至超过全精度版本 +1%)。
意义: 揭示了注意力信息失真是 ViT 量化的关键瓶颈,并提出熵最大化恢复思路。
2.3 【QAT】Variation-aware ViT Quantization (ICLR 2024 / arXiv 2023)
完整引用 : Zhao, S., et al. "Variation-aware Vision Transformer Quantization." arXiv:2307.00331, 2023; ICLR 2024.
问题: ViT 中存在的独特"变异性行为"(variation behaviors)导致 QAT 训练不稳定。
核心创新:
| 模块 | 方法 | 作用 |
|---|---|---|
| MCKD(Multi-crop Knowledge Distillation) | 在量化感知训练中引入多裁剪知识蒸馏 | 缓解训练中的变异性影响,加速收敛 |
| Module-dependent Quantization | 针对不同模块采用不同的量化方案 | 应对模块间量化敏感性的巨大差异 |
| Variation-aware Regularization | 在损失函数中加入变异性正则项 | 抑制权重振荡 |
结果: 2-bit Swin-T 在 ImageNet-1K 上达到 77.66% Top-1,超越先前 SOTA 3.35%。
意义: 首次系统分析了 ViT 中的"变异性行为",证明知识蒸馏对 QAT 稳定性至关重要。
2.4 【PTQ】PTQ4ViT (ICML 2022)
完整引用 : Wang, B., et al. "PTQ4ViT: Post-Training Quantization for Vision Transformers with Twin Uniform Quantization." ICML 2022.
问题: 传统 PTQ 方法假设激活服从高斯分布,但 ViT 的 post-softmax 和 post-GELU 激活偏离高斯分布,且 MSE/cosine 距离在 ViT 上是不准确的量化指标。
核心创新:
| 模块 | 方法 | 作用 |
|---|---|---|
| Twin Uniform Quantization (TUQ) | 对 post-softmax/post-GELU 的值在两个不同范围内分别均匀量化 | 处理非高斯分布的激活值 |
| Hessian-guided Metric | 使用 Hessian 矩阵近似评估缩放因子的重要性 | 替代 MSE/cosine,更准确地确定最优缩放 |
结果: 在 8-bit 量化下,ViT/DeiT/Swin 的精度损失不到 0.5%,接近无损。
意义: 揭示了 MSE 作为 ViT 量化指标的局限性,引入了基于 Hessian 的评估框架。
2.5 【PTQ】AIQViT (AAAI 2023)
完整引用 : Yang, Z., et al. "AIQViT: Architecture-Informed Post-Training Quantization for Vision Transformers." AAAI 2023.
问题: 现有 PTQ 方法低估了权重量化的信息损失,且对 post-Softmax 激活的对数变换往往过度关注零附近的信息量较小的值。
核心创新:
| 模块 | 方法 | 作用 |
|---|---|---|
| Architecture-Informed Low-Rank Compensation | 为每个线性层引入可学习的低秩权重补偿量化信息损失 | 通过 NAS 确定补偿秩数,实现架构感知 |
| DFQ(Dynamic Focusing Quantizer) | 动态选择激活分布中最有价值的区间进行量化 | 优于传统的对数变换,在关键区域提供更高量化分辨率 |
结果: 在图像分类、目标检测、实例分割、点云分类等多项任务上优于 SOTA PTQ 方法。
意义: 提出"信息补偿"思路解决权重量化丢失问题,并设计了动态聚焦量化策略。
2.6 【PTQ】PTQViT/IPTQ-ViT (arXiv 2022)
完整引用 : Yang, Z., et al. "IPTQ-ViT: Post-Training Quantization of Non-linear Functions for Integer-only Vision Transformers." arXiv, 2022.
问题: ViT 中的非线性函数(GELU、Softmax)在纯整数推理中存在计算障碍。
核心创新:
| 模块 | 方法 | 作用 |
|---|---|---|
| 多项式近似 GELU | 用低阶多项式逼近 GELU | 将非线性运算转化为整数可执行的乘加 |
| Bit-shifting Softmax | 用位移操作近似 Softmax | 避免浮点指数计算,实现纯整数推理 |
结果: 实现了无需重训练的全整数 ViT,保持有竞争力的精度。
意义: 为非线性函数的整数近似提供了新范式。
2.7 【PTQ】ERQ (ICML 2024)
完整引用 : Zhang, K., et al. "ERQ: Error Reduction for Post-Training Quantization of Vision Transformers." ICML 2024.
问题: 激活量化和权重量化之间的误差存在相互依赖性,现有方法通常独立优化两者。
核心创新:
| 步骤 | 方法 | 作用 |
|---|---|---|
| Aqer(Activation Quantization Error Reduction) | 将激活量化误差最小化建模为 Ridge Regression 问题 | 在保持权重全精度的前提下更新激活缩放 |
| Wqer(Weight Quantization Error Reduction) | 迭代优化量化权重的舍入方向,使用代理指标 + Ridge Regression | 进一步降低量化权重带来的误差 |
结果: 在 W3A4(3-bit 权重,4-bit 激活)ViT-S 上,精度超过 GPTQ 方法最高达 22.36%--36.81%。
意义: 首次系统考虑了激活/权重量化的误差耦合关系,提出了两阶段协同优化框架。
2.8 【PTQ】P2-ViT (IEEE TPAMI / arXiv 2023)
完整引用 : Li, W., et al. "P2-ViT: Power-of-Two Post-Training Quantization and Acceleration for Fully Quantized Vision Transformer." IEEE TPAMI 2023.
问题: 传统 PTQ 使用浮点缩放因子,引入显著的重新量化开销,限制硬件效率。
核心创新:
| 层面 | 方法 | 作用 |
|---|---|---|
| 算法 | 2 的幂次缩放因子(PoT)+ 粗到细的混合精度量化 | 将浮点乘法转为位移位,消除重量化开销 |
| 算法 | Adaptive PoT Rounding + PoT-Aware Smoothing | 从激活中迁移通道级异常值到权重 |
| 硬件 | 专用 chunk 基加速器(处理 MatMul、LayerNorm、Softmax 等) | 减少重配置开销 |
| 硬件 | 行稳态数据流(Row-Stationary Dataflow) | 利用 PoT 的流水线特性提升吞吐 |
结果: 相比 GPU Turing Tensor Cores,实现 10.1× 加速和 36.8× 能耗节省。
意义: 首次将 PoT 量化与硬件加速器深度结合,实现算法-硬件协同优化。
2.9 【PTQ】IGQ-ViT (CVPR 2024)
完整引用 : Chen, Y., et al. "Instance-Aware Group Quantization for Vision Transformers." CVPR 2024.
问题: ViT 中每个通道在不同输入实例上的激活分布差异极大,层-wise 或通道-wise 量化均无法兼顾。
核心创新:
| 模块 | 方法 | 作用 |
|---|---|---|
| Instance-Aware Grouping | 对每个输入实例动态将激活通道分组 | 确保组内通道具有相似统计特性 |
| EM-like 量化边界优化 | 定义距离度量将通道分配到最合适的量化器组 | 优化每组量化精度 |
| 高效组数分配 | 在 BOP(bit-operation)约束下最小化预测偏差 | 动态分配每层的组数量 |
结果: 4/4-bit 量化下,ViT-S 达到 73.61%(RepQ-ViT 仅为 65.05%);6/6-bit 同样超越 SOTA。
意义: 提出"每实例分组"的新范式,在极低比特下保持竞争力。
2.10 【PTQ / NAS】LRP-QViT (arXiv 2024)
完整引用 : Ranjan, N. & Savakis, A. "LRP-QViT: Explainability-Guided Mixed-Precision Quantization for Vision Transformers." arXiv:2401.11255, 2024.
问题: 统一比特量化无法兼顾不同层的量化敏感性差异,混合精度策略需要更好的指导机制。
核心创新:
| 模块 | 方法 | 作用 |
|---|---|---|
| LRP 贡献评分 | 使用 Layer-wise Relevance Propagation 计算每层对分类的贡献 | 指导混合精度比特分配 |
| CCLQ(Clipped Channel-wise Quantization) | 对 post-LayerNorm 激活使用截断通道-wise 量化 | 缓解通道间方差 |
结果: 在 4-bit 和 6-bit 场景下,混合精度 LRP-QViT 优于 RepQ-ViT 等方法。
意义: 将可解释性 AI(Explainable AI)引入量化比特分配,提供了新的理论视角。
3. 文献全景与分类
3.1 方法分类
ViT 量化方法
├── 训练感知量化 (QAT)
│ ├── Q-ViT (NeurIPS 2022) ------ 信息修复 + 分布蒸馏
│ └── Variation-aware (ICLR 2024) ------ 知识蒸馏 + 变异性正则化
│
├── 后训练量化 (PTQ)
│ ├── PTQ4ViT (ICML 2022) ------ 双均匀量化 + Hessian 度量
│ ├── AIQViT (AAAI 2023) ------ 低秩补偿 + 动态聚焦量化
│ ├── FQ-ViT (CVPR 2022) ------ PoT 因子 + 对数量化 Softmax
│ ├── IPTQ-ViT (2022) ------ 多项式 GELU + 位移 Softmax
│ ├── ERQ (ICML 2024) ------ 两阶段误差协同优化
│ ├── P2-ViT (2023) ------ 2 的幂次缩放 + 硬件加速
│ ├── IGQ-ViT (CVPR 2024) ------ 实例感知分组量化
│ └── LRP-QViT (2024) ------ LRP 驱动的混合精度
│
└── 硬件协同
└── P2-ViT, Quasar-ViT
3.2 关键技术对比
| 文献 | 年份 | 方法 | 核心创新 | 目标量化位宽 | 关键成果 |
|---|---|---|---|---|---|
| FQ-ViT | 2022 | PTQ | PoT 因子 + 对数量化 Softmax | 8/8-bit | 首次完全整数推理 |
| Q-ViT | 2022 | QAT | 信息修复 + 分布蒸馏 | 4-bit | 超越全精度 +1% |
| PTQ4ViT | 2022 | PTQ | 双均匀量化 + Hessian | 8/8-bit | <0.5% 精度损失 |
| Variation-aware | 2023 | QAT | 知识蒸馏 + 变异性正则化 | 2-bit | Swin-T 77.66% |
| AIQViT | 2023 | PTQ | 低秩补偿 + 动态聚焦 | 4/4-bit | 多项任务超越 SOTA |
| IPTQ-ViT | 2022 | PTQ | 多项式 GELU + 位移 Softmax | 整数 | 纯整数推理 |
| P2-ViT | 2023 | PTQ | 2 的幂次 + 硬件加速器 | 混合 | 10.1× 加速 |
| ERQ | 2024 | PTQ | 激活/权重误差协同优化 | 3/4-bit | 超越 GPTQ 最高 36.81% |
| IGQ-ViT | 2024 | PTQ | 实例感知分组 | 4/4-bit, 6/6-bit | 4-bit 73.61% |
| LRP-QViT | 2024 | PTQ | LRP 驱动混合精度 | 4/6-bit | 混合精度超越统一精度 |
3.3 技术演进趋势
-
从 CNN 移植 → ViT 原生设计: 早期方法尝试移植 CNN 量化技术,后发现 ViT 具有独特挑战(Softmax、LayerNorm、注意力分布),转向 ViT 原生设计。
-
从均匀量化 → 感知量化: 从层-wise/通道-wise 均匀量化,演进到实例感知分组、混合精度、架构感知等细粒度方案。
-
从纯算法 → 算法-硬件协同: 最新工作(如 P2-ViT、Quasar-ViT)将量化方法与硬件加速器联合设计,追求端到端效率。
-
从精度导向 → 可解释性驱动: LRP-QViT 首次将可解释性方法引入比特分配,提供了理论保障的新范式。
4. 未解决问题与未来方向
4.1 亚 2-bit 量化
当前多数方法集中在 4-bit 及以上,sub-2-bit 量化在 ViT 上仍面临严重的精度崩溃。如何在极端低比特下保持注意力信息的完整性是核心挑战。
4.2 激活量化 vs 权重量化
现有方法更关注权重量化,但研究表明 激活量化(尤其是 post-LayerNorm 和 post-Softmax)往往是更严重的瓶颈。两阶段协同优化(如 ERQ)提供了新思路,但仍需更深入研究。
4.3 低阶视觉任务
当前成果主要集中在 图像分类,在目标检测、实例分割、点云处理等低阶视觉任务上的量化效果仍有较大提升空间。
4.4 训练与推理的鸿沟
QAT 方法(如 Q-ViT、Variation-aware)在训练时能取得极佳效果,但需要大量标注数据和较长的训练时间;PTQ 方法(如 FQ-ViT、PTQ4ViT)虽然无需训练,但精度天花板较低。两者的精度-效率权衡仍需更优的解决方案。
4.5 与 Transformer 变体的适配
大部分方法在标准 ViT 和 Swin Transformer 上验证,但 DeiT、MobileViT、ConvNeXt-ViT 等变体的量化行为尚未被充分探索。
5. 结论
Vision Transformer 的完全量化已经从简单的 CNN 方法移植,发展成为一个拥有丰富技术体系的独立研究方向。从 FQ-ViT 的首次完全整数推理,到 Q-ViT 的信息修复,再到 ERQ 的两阶段误差优化和 IGQ-ViT 的实例感知分组,该领域在 2022--2024 年间取得了显著进展。
未来的关键突破点可能在于:亚 2-bit 极限量化、算法-硬件深度协同、可解释性驱动的比特分配,以及在更多视觉任务上的泛化。随着量化方法与新型硬件架构的深度融合,ViT 在边缘设备上的高效部署有望成为现实。
参考文献
- Wang, B., et al. "FQ-ViT: Post-Training Quantization for Fully Quantized Vision Transformer." CVPR 2022.
- Yang, Z., et al. "Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer." NeurIPS 2022.
- Zhao, S., et al. "Variation-aware Vision Transformer Quantization." arXiv:2307.00331, 2023; ICLR 2024.
- Wang, B., et al. "PTQ4ViT: Post-Training Quantization for Vision Transformers with Twin Uniform Quantization." ICML 2022.
- Yang, Z., et al. "AIQViT: Architecture-Informed Post-Training Quantization for Vision Transformers." AAAI 2023.
- Yang, Z., et al. "IPTQ-ViT: Post-Training Quantization of Non-linear Functions for Integer-only Vision Transformers." arXiv, 2022.
- Zhang, K., et al. "ERQ: Error Reduction for Post-Training Quantization of Vision Transformers." ICML 2024.
- Li, W., et al. "P2-ViT: Power-of-Two Post-Training Quantization and Acceleration for Fully Quantized Vision Transformer." IEEE TPAMI 2023.
- Chen, Y., et al. "Instance-Aware Group Quantization for Vision Transformers." CVPR 2024.
- Ranjan, N. & Savakis, A. "LRP-QViT: Explainability-Guided Mixed-Precision Quantization for Vision Transformers." arXiv:2401.11255, 2024.