【量化】Vision Transformer 的完全量化已经从简单的 CNN 方法移植,发展成为一个拥有丰富技术体系的独立研究方向:综述

检索并综述了 10 篇核心文献,涵盖:

文献 方法 亮点

1 FQ-ViT (CVPR 2022) PTQ PoT 因子 + 对数量化 Softmax,首次完全整数推理

2 Q-ViT (NeurIPS 2022) QAT 信息修复 + 分布蒸馏,超越全精度 +1%

3 Variation-aware (ICLR 2024) QAT 知识蒸馏 + 变异性正则,2-bit Swin-T 77.66%

4 PTQ4ViT (ICML 2022) PTQ 双均匀量化 + Hessian 度量

5 AIQViT (AAAI 2023) PTQ 低秩补偿 + 动态聚焦量化

6 IPTQ-ViT (2022) PTQ 多项式 GELU + 位移 Softmax

7 ERQ (ICML 2024) PTQ 激活/权重误差两阶段协同,超越 GPTQ 最高 36.81%

8 P2-ViT (2023) PTQ 2 的幂次缩放 + 硬件加速器,10.1× 加速

9 IGQ-ViT (CVPR 2024) PTQ 实例感知分组量化,4-bit 达 73.61%

10 LRP-QViT (2024) PTQ LRP 可解释性驱动混合精度

综述包含方法分类对比表、技术演进趋势分析,以及亚 2-bit 量化、激活/权重耦合、低阶视觉任务适配等未来方向。

综述:Vision Transformer 的完全量化(Fully Quantized Vision Transformers)

基于 FQ-ViT 及其相关工作的十篇核心文献综述


摘要

Vision Transformer(ViT)在图像分类、目标检测、语义分割等计算机视觉任务中取得了超越卷积神经网络的卓越性能。然而,ViT 庞大的参数量和计算复杂度使其难以部署到资源受限的边缘设备上。模型量化作为一种高效的压缩技术,通过将高精密浮点参数映射到低位宽整数量级,显著降低存储与计算开销。本文围绕 FQ-ViT(Fully Quantized Vision Transformer) 这一开创性工作,系统综述了 2022--2024 年间 Vision Transformer 量化领域的 10 篇核心文献,涵盖训练感知量化(QAT)、后训练量化(PTQ)、混合精度量化、硬件协同设计等方向,并讨论未来的研究方向。


1. 引言

1.1 背景

Transformer 架构自 NLP 领域兴起后,Vision Transformer(ViT)[Dosovitskiy et al., ICLR 2021] 将其成功引入视觉任务。与 CNN 不同,ViT 通过自注意力机制建模全局依赖,但其二次复杂度(O(n²))和大量参数使其在边缘设备上部署困难。

1.2 为什么 ViT 量化更难?

直接将 CNN 的量化方法应用于 ViT 往往导致超过 1% 的精度损失,即使是 8-bit 量化也不行。ViT 特有的挑战包括:

  • LayerNorm 和 Softmax 的量化瓶颈:LayerNorm 输出的通道间方差极大,Softmax 注意力分布极端不均匀(大部分值接近 0,少数接近 1)
  • 激活值分布异常:post-softmax 和 post-GELU 激活值显著偏离高斯分布
  • 实例级变异性:不同输入样本的激活分布差异剧烈,使得层-wise 或通道-wise 量化策略难以兼顾
  • 量化感知训练的振荡:ViT 内部不同模块对量化的敏感性差异巨大,导致 QAT 训练不稳定

1.3 本文贡献

系统梳理 10 篇代表性文献,按方法类型归纳,揭示技术演进脉络,并指出未来方向。


2. 核心文献综述

2.1 【开创性工作】FQ-ViT (CVPR 2022)

完整引用 : Wang, B., et al. "FQ-ViT: Post-Training Quantization for Fully Quantized Vision Transformer." CVPR 2022.

问题: 传统 CNN 量化方法直接应用于 ViT 时精度严重下降,主要源于 LayerNorm 和 Softmax 的量化困难。

核心创新:

模块 方法 作用
PTF(Power-of-Two Factor) 为不同通道赋予不同的 2 的幂次因子 结合层-wise 和通道-wise 量化的优点,缓解 LayerNorm 输入/输出的高方差激活误差
LIS(Log-Int-Softmax) 对 Softmax 注意力使用对数量化 保留更多量化层级在密集的小值区域,用 BitShift 算子简化推理

结果: 在 ImageNet 上,ViT-L 全量化精度约 84.89%(仅下降 ~1%);Swin-S on COCO 达到 50.8 mAP。

意义: 首次实现了 ViT 的完全整数推理(fully integer-only inference),无需任何浮点中间计算。


2.2 【QAT】Q-ViT (NeurIPS 2022)

完整引用 : Yang, Z., et al. "Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer." NeurIPS 2022.

问题: 自注意力机制中的信息失真(information distortion)是低比特 ViT 精度下降的主要瓶颈。

核心创新:

模块 方法 作用
IRM(Information Rectification Module) 对注意力模块中的量化表示应用最大化信息熵映射 恢复被量化破坏的图像表示
DGD(Distribution Guided Distillation) 利用相似性矩阵中的知识消除量化前后分布不匹配 引导量化训练过程

结果: ViT-S 理论上加速 6.14×,在 ImageNet 上达到 ~80.9% Top-1 精度(甚至超过全精度版本 +1%)。

意义: 揭示了注意力信息失真是 ViT 量化的关键瓶颈,并提出熵最大化恢复思路。


2.3 【QAT】Variation-aware ViT Quantization (ICLR 2024 / arXiv 2023)

完整引用 : Zhao, S., et al. "Variation-aware Vision Transformer Quantization." arXiv:2307.00331, 2023; ICLR 2024.

问题: ViT 中存在的独特"变异性行为"(variation behaviors)导致 QAT 训练不稳定。

核心创新:

模块 方法 作用
MCKD(Multi-crop Knowledge Distillation) 在量化感知训练中引入多裁剪知识蒸馏 缓解训练中的变异性影响,加速收敛
Module-dependent Quantization 针对不同模块采用不同的量化方案 应对模块间量化敏感性的巨大差异
Variation-aware Regularization 在损失函数中加入变异性正则项 抑制权重振荡

结果: 2-bit Swin-T 在 ImageNet-1K 上达到 77.66% Top-1,超越先前 SOTA 3.35%。

意义: 首次系统分析了 ViT 中的"变异性行为",证明知识蒸馏对 QAT 稳定性至关重要。


2.4 【PTQ】PTQ4ViT (ICML 2022)

完整引用 : Wang, B., et al. "PTQ4ViT: Post-Training Quantization for Vision Transformers with Twin Uniform Quantization." ICML 2022.

问题: 传统 PTQ 方法假设激活服从高斯分布,但 ViT 的 post-softmax 和 post-GELU 激活偏离高斯分布,且 MSE/cosine 距离在 ViT 上是不准确的量化指标。

核心创新:

模块 方法 作用
Twin Uniform Quantization (TUQ) 对 post-softmax/post-GELU 的值在两个不同范围内分别均匀量化 处理非高斯分布的激活值
Hessian-guided Metric 使用 Hessian 矩阵近似评估缩放因子的重要性 替代 MSE/cosine,更准确地确定最优缩放

结果: 在 8-bit 量化下,ViT/DeiT/Swin 的精度损失不到 0.5%,接近无损。

意义: 揭示了 MSE 作为 ViT 量化指标的局限性,引入了基于 Hessian 的评估框架。


2.5 【PTQ】AIQViT (AAAI 2023)

完整引用 : Yang, Z., et al. "AIQViT: Architecture-Informed Post-Training Quantization for Vision Transformers." AAAI 2023.

问题: 现有 PTQ 方法低估了权重量化的信息损失,且对 post-Softmax 激活的对数变换往往过度关注零附近的信息量较小的值。

核心创新:

模块 方法 作用
Architecture-Informed Low-Rank Compensation 为每个线性层引入可学习的低秩权重补偿量化信息损失 通过 NAS 确定补偿秩数,实现架构感知
DFQ(Dynamic Focusing Quantizer) 动态选择激活分布中最有价值的区间进行量化 优于传统的对数变换,在关键区域提供更高量化分辨率

结果: 在图像分类、目标检测、实例分割、点云分类等多项任务上优于 SOTA PTQ 方法。

意义: 提出"信息补偿"思路解决权重量化丢失问题,并设计了动态聚焦量化策略。


2.6 【PTQ】PTQViT/IPTQ-ViT (arXiv 2022)

完整引用 : Yang, Z., et al. "IPTQ-ViT: Post-Training Quantization of Non-linear Functions for Integer-only Vision Transformers." arXiv, 2022.

问题: ViT 中的非线性函数(GELU、Softmax)在纯整数推理中存在计算障碍。

核心创新:

模块 方法 作用
多项式近似 GELU 用低阶多项式逼近 GELU 将非线性运算转化为整数可执行的乘加
Bit-shifting Softmax 用位移操作近似 Softmax 避免浮点指数计算,实现纯整数推理

结果: 实现了无需重训练的全整数 ViT,保持有竞争力的精度。

意义: 为非线性函数的整数近似提供了新范式。


2.7 【PTQ】ERQ (ICML 2024)

完整引用 : Zhang, K., et al. "ERQ: Error Reduction for Post-Training Quantization of Vision Transformers." ICML 2024.

问题: 激活量化和权重量化之间的误差存在相互依赖性,现有方法通常独立优化两者。

核心创新:

步骤 方法 作用
Aqer(Activation Quantization Error Reduction) 将激活量化误差最小化建模为 Ridge Regression 问题 在保持权重全精度的前提下更新激活缩放
Wqer(Weight Quantization Error Reduction) 迭代优化量化权重的舍入方向,使用代理指标 + Ridge Regression 进一步降低量化权重带来的误差

结果: 在 W3A4(3-bit 权重,4-bit 激活)ViT-S 上,精度超过 GPTQ 方法最高达 22.36%--36.81%。

意义: 首次系统考虑了激活/权重量化的误差耦合关系,提出了两阶段协同优化框架。


2.8 【PTQ】P2-ViT (IEEE TPAMI / arXiv 2023)

完整引用 : Li, W., et al. "P2-ViT: Power-of-Two Post-Training Quantization and Acceleration for Fully Quantized Vision Transformer." IEEE TPAMI 2023.

问题: 传统 PTQ 使用浮点缩放因子,引入显著的重新量化开销,限制硬件效率。

核心创新:

层面 方法 作用
算法 2 的幂次缩放因子(PoT)+ 粗到细的混合精度量化 将浮点乘法转为位移位,消除重量化开销
算法 Adaptive PoT Rounding + PoT-Aware Smoothing 从激活中迁移通道级异常值到权重
硬件 专用 chunk 基加速器(处理 MatMul、LayerNorm、Softmax 等) 减少重配置开销
硬件 行稳态数据流(Row-Stationary Dataflow) 利用 PoT 的流水线特性提升吞吐

结果: 相比 GPU Turing Tensor Cores,实现 10.1× 加速和 36.8× 能耗节省。

意义: 首次将 PoT 量化与硬件加速器深度结合,实现算法-硬件协同优化。


2.9 【PTQ】IGQ-ViT (CVPR 2024)

完整引用 : Chen, Y., et al. "Instance-Aware Group Quantization for Vision Transformers." CVPR 2024.

问题: ViT 中每个通道在不同输入实例上的激活分布差异极大,层-wise 或通道-wise 量化均无法兼顾。

核心创新:

模块 方法 作用
Instance-Aware Grouping 对每个输入实例动态将激活通道分组 确保组内通道具有相似统计特性
EM-like 量化边界优化 定义距离度量将通道分配到最合适的量化器组 优化每组量化精度
高效组数分配 在 BOP(bit-operation)约束下最小化预测偏差 动态分配每层的组数量

结果: 4/4-bit 量化下,ViT-S 达到 73.61%(RepQ-ViT 仅为 65.05%);6/6-bit 同样超越 SOTA。

意义: 提出"每实例分组"的新范式,在极低比特下保持竞争力。


2.10 【PTQ / NAS】LRP-QViT (arXiv 2024)

完整引用 : Ranjan, N. & Savakis, A. "LRP-QViT: Explainability-Guided Mixed-Precision Quantization for Vision Transformers." arXiv:2401.11255, 2024.

问题: 统一比特量化无法兼顾不同层的量化敏感性差异,混合精度策略需要更好的指导机制。

核心创新:

模块 方法 作用
LRP 贡献评分 使用 Layer-wise Relevance Propagation 计算每层对分类的贡献 指导混合精度比特分配
CCLQ(Clipped Channel-wise Quantization) 对 post-LayerNorm 激活使用截断通道-wise 量化 缓解通道间方差

结果: 在 4-bit 和 6-bit 场景下,混合精度 LRP-QViT 优于 RepQ-ViT 等方法。

意义: 将可解释性 AI(Explainable AI)引入量化比特分配,提供了新的理论视角。


3. 文献全景与分类

3.1 方法分类

复制代码
ViT 量化方法
├── 训练感知量化 (QAT)
│   ├── Q-ViT (NeurIPS 2022) ------ 信息修复 + 分布蒸馏
│   └── Variation-aware (ICLR 2024) ------ 知识蒸馏 + 变异性正则化
│
├── 后训练量化 (PTQ)
│   ├── PTQ4ViT (ICML 2022) ------ 双均匀量化 + Hessian 度量
│   ├── AIQViT (AAAI 2023) ------ 低秩补偿 + 动态聚焦量化
│   ├── FQ-ViT (CVPR 2022) ------ PoT 因子 + 对数量化 Softmax
│   ├── IPTQ-ViT (2022) ------ 多项式 GELU + 位移 Softmax
│   ├── ERQ (ICML 2024) ------ 两阶段误差协同优化
│   ├── P2-ViT (2023) ------ 2 的幂次缩放 + 硬件加速
│   ├── IGQ-ViT (CVPR 2024) ------ 实例感知分组量化
│   └── LRP-QViT (2024) ------ LRP 驱动的混合精度
│
└── 硬件协同
    └── P2-ViT, Quasar-ViT

3.2 关键技术对比

文献 年份 方法 核心创新 目标量化位宽 关键成果
FQ-ViT 2022 PTQ PoT 因子 + 对数量化 Softmax 8/8-bit 首次完全整数推理
Q-ViT 2022 QAT 信息修复 + 分布蒸馏 4-bit 超越全精度 +1%
PTQ4ViT 2022 PTQ 双均匀量化 + Hessian 8/8-bit <0.5% 精度损失
Variation-aware 2023 QAT 知识蒸馏 + 变异性正则化 2-bit Swin-T 77.66%
AIQViT 2023 PTQ 低秩补偿 + 动态聚焦 4/4-bit 多项任务超越 SOTA
IPTQ-ViT 2022 PTQ 多项式 GELU + 位移 Softmax 整数 纯整数推理
P2-ViT 2023 PTQ 2 的幂次 + 硬件加速器 混合 10.1× 加速
ERQ 2024 PTQ 激活/权重误差协同优化 3/4-bit 超越 GPTQ 最高 36.81%
IGQ-ViT 2024 PTQ 实例感知分组 4/4-bit, 6/6-bit 4-bit 73.61%
LRP-QViT 2024 PTQ LRP 驱动混合精度 4/6-bit 混合精度超越统一精度

3.3 技术演进趋势

  1. 从 CNN 移植 → ViT 原生设计: 早期方法尝试移植 CNN 量化技术,后发现 ViT 具有独特挑战(Softmax、LayerNorm、注意力分布),转向 ViT 原生设计。

  2. 从均匀量化 → 感知量化: 从层-wise/通道-wise 均匀量化,演进到实例感知分组、混合精度、架构感知等细粒度方案。

  3. 从纯算法 → 算法-硬件协同: 最新工作(如 P2-ViT、Quasar-ViT)将量化方法与硬件加速器联合设计,追求端到端效率。

  4. 从精度导向 → 可解释性驱动: LRP-QViT 首次将可解释性方法引入比特分配,提供了理论保障的新范式。


4. 未解决问题与未来方向

4.1 亚 2-bit 量化

当前多数方法集中在 4-bit 及以上,sub-2-bit 量化在 ViT 上仍面临严重的精度崩溃。如何在极端低比特下保持注意力信息的完整性是核心挑战。

4.2 激活量化 vs 权重量化

现有方法更关注权重量化,但研究表明 激活量化(尤其是 post-LayerNorm 和 post-Softmax)往往是更严重的瓶颈。两阶段协同优化(如 ERQ)提供了新思路,但仍需更深入研究。

4.3 低阶视觉任务

当前成果主要集中在 图像分类,在目标检测、实例分割、点云处理等低阶视觉任务上的量化效果仍有较大提升空间。

4.4 训练与推理的鸿沟

QAT 方法(如 Q-ViT、Variation-aware)在训练时能取得极佳效果,但需要大量标注数据和较长的训练时间;PTQ 方法(如 FQ-ViT、PTQ4ViT)虽然无需训练,但精度天花板较低。两者的精度-效率权衡仍需更优的解决方案。

4.5 与 Transformer 变体的适配

大部分方法在标准 ViT 和 Swin Transformer 上验证,但 DeiT、MobileViT、ConvNeXt-ViT 等变体的量化行为尚未被充分探索。


5. 结论

Vision Transformer 的完全量化已经从简单的 CNN 方法移植,发展成为一个拥有丰富技术体系的独立研究方向。从 FQ-ViT 的首次完全整数推理,到 Q-ViT 的信息修复,再到 ERQ 的两阶段误差优化和 IGQ-ViT 的实例感知分组,该领域在 2022--2024 年间取得了显著进展。

未来的关键突破点可能在于:亚 2-bit 极限量化、算法-硬件深度协同、可解释性驱动的比特分配,以及在更多视觉任务上的泛化。随着量化方法与新型硬件架构的深度融合,ViT 在边缘设备上的高效部署有望成为现实。


参考文献

  1. Wang, B., et al. "FQ-ViT: Post-Training Quantization for Fully Quantized Vision Transformer." CVPR 2022.
  2. Yang, Z., et al. "Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer." NeurIPS 2022.
  3. Zhao, S., et al. "Variation-aware Vision Transformer Quantization." arXiv:2307.00331, 2023; ICLR 2024.
  4. Wang, B., et al. "PTQ4ViT: Post-Training Quantization for Vision Transformers with Twin Uniform Quantization." ICML 2022.
  5. Yang, Z., et al. "AIQViT: Architecture-Informed Post-Training Quantization for Vision Transformers." AAAI 2023.
  6. Yang, Z., et al. "IPTQ-ViT: Post-Training Quantization of Non-linear Functions for Integer-only Vision Transformers." arXiv, 2022.
  7. Zhang, K., et al. "ERQ: Error Reduction for Post-Training Quantization of Vision Transformers." ICML 2024.
  8. Li, W., et al. "P2-ViT: Power-of-Two Post-Training Quantization and Acceleration for Fully Quantized Vision Transformer." IEEE TPAMI 2023.
  9. Chen, Y., et al. "Instance-Aware Group Quantization for Vision Transformers." CVPR 2024.
  10. Ranjan, N. & Savakis, A. "LRP-QViT: Explainability-Guided Mixed-Precision Quantization for Vision Transformers." arXiv:2401.11255, 2024.
相关推荐
墨神谕3 小时前
人工智能(二)— 神经网络
人工智能·深度学习·神经网络
龙侠九重天3 小时前
Embedding 模型深度使用——语义搜索与聚类
人工智能·深度学习·数据挖掘·大模型·llm·embedding·聚类
slam与AI智能体3 小时前
不依赖 IMU / 标定:VGGT-SLAM 回环检测的轻量化方案解析
深度学习·slam·回环检测·vggt
晚霞的不甘3 小时前
CANN 模型转换与适配:从 PyTorch 到 Ascend OM 的完整指南
人工智能·pytorch·python·深度学习
山西茄子3 小时前
DeepStream9.0 Multi-View 3D Tracking
深度学习·deepstream
放下华子我只抽RuiKe53 小时前
React 从入门到生产(三):副作用与数据获取
前端·javascript·深度学习·react.js·开源·ecmascript·集成学习
微祎_3 小时前
写给前端的 CANN-ops-transformer:昇腾Transformer进阶算子库到底是啥?
前端·深度学习·transformer
XMAIPC_Robot3 小时前
RK3588 PLC AMP 核隔离配置 + RT‑Thread 实时优化 + FPGA 接口定义 + CODESYS 工程
人工智能·嵌入式硬件·深度学习·fpga开发
灰灰勇闯IT4 小时前
hixl 单边通信:昇腾推理的高效互联通道
人工智能·深度学习·机器学习