rknn 量化原理

在 RKNN (Rockchip Neural Network Toolkit) 中,传入校准数据集进行量化的过程是基于 Post-Training Quantization (PTQ) 的原理,特别是对于 8-bit 量化(INT8)模型,这是一个常见的过程。以下是其基本原理和流程:

  1. 校准数据集的作用

校准数据集是用于确定模型中每一层权重和激活值的动态范围的。量化将浮点数值(通常是 FP32)映射到整数值(如 INT8)。这种映射需要知道数值范围,从而计算缩放因子(scale)和零点(zero point)。

• 激活量化:

需要了解每一层输出的最小值和最大值,以便将浮点范围映射到 INT8 范围(通常是 -128 到 127)。

• 权重量化:

类似地,权重的动态范围也需要确定,以便正确映射到 INT8。

校准数据集通过多次推理,统计这些范围信息,从而为后续量化提供准确的参考。

  1. 量化的基本公式
    \text{int8_value} = \text{round}\left(\frac{\text{float_value} - \text{zero_point}}{\text{scale}}\right)

量化映射关系可表示为:

• Scale: 用于表示浮点数到整数的缩放因子。

• Zero Point: 用于调整量化范围与浮点范围的对齐。

通过校准数据集,可以统计每一层的输出范围(min 和 max),然后计算缩放因子和零点:

\text{scale} = \frac{\text{max_float} - \text{min_float}}{255} \quad \text{(对称量化)}

或者:

\text{scale} = \frac{\text{max_float} - \text{min_float}}{256}, \quad \text{zero_point} = -\frac{\text{min_float}}{\text{scale}}

  1. 校准的过程

校准过程分以下几步:

(1) 数据准备

传入校准数据集,这些数据应该能覆盖模型运行时的典型输入分布,通常是训练数据的一个子集或相似分布的数据。

(2) 模型推理

使用校准数据集对模型进行推理,统计每一层激活值和权重的分布情况。

(3) 统计范围

根据推理过程中收集的激活值分布,找到每一层输出的动态范围(min 和 max)。这通常使用以下方法:

• Min-Max 统计: 直接记录每一层激活的最小值和最大值。

• KL 散度: 比较量化分布和浮点分布的差异,选择一个最佳范围。

(4) 计算缩放参数

根据统计的动态范围计算 scale 和 zero point,用于后续量化。

(5) 替换浮点运算

将模型中的浮点计算替换为整数计算(例如使用 INT8 加法和乘法),并用校准得到的量化参数调整权重和激活。

  1. 校准数据的重要性

校准数据集的质量直接影响量化模型的准确性。原因是:

• 不同分布的校准数据可能导致量化参数与实际推理数据分布不匹配。

• 数据覆盖度不足(如仅覆盖某些输入模式)可能导致模型某些部分的动态范围被低估。

因此,选择校准数据时需尽可能贴近实际推理场景。

  1. RKNN 的优化

RKNN 在量化过程中可能采用了一些优化技术:

• 混合量化:如果某些层量化损失较大,可能保留这些层为 FP32 或使用 FP16。

• 改进的动态范围估计:比如使用 KL 散度方法或其他启发式统计技术来更好地捕捉分布。

总结

RKNN 的量化通过校准数据集来统计动态范围,计算量化参数(scale 和 zero point),并将模型权重和激活映射到整数值,从而减少推理时的计算复杂度和存储需求。这种方法依赖校准数据集的代表性和框架的量化策略优化。

相关推荐
机器视觉知识推荐、就业指导几秒前
【数字图像处理二】图像增强与空域处理
图像处理·人工智能·经验分享·算法·计算机视觉
陈辛chenxin4 分钟前
【论文带读系列(1)】《End-to-End Object Detection with Transformers》论文超详细带读 + 翻译
人工智能·目标检测·计算机视觉
橙狮科技11 分钟前
使用 GPTQ 进行 4 位 LLM 量化
人工智能·python·语言模型
黑客笔记13 分钟前
ChatGPT超级AI对话模型 黑客十问十答
人工智能·web安全·网络安全
OpenCSG17 分钟前
免部署|DeepSeek模型上线 CSGHub Serverless API|即刻免费试用
人工智能·深度学习·社区
背太阳的牧羊人28 分钟前
RAG检索中使用一个 长上下文重排序器(Long Context Reorder) 对检索到的文档进行进一步的处理和排序,优化输出顺序
开发语言·人工智能·python·langchain·rag
UQI-LIUWJ32 分钟前
论文略:ACloser Look into Mixture-of-Experts in Large Language Models
人工智能·语言模型·自然语言处理
007_rbq36 分钟前
XUnity.AutoTranslator-Gemini——调用Google的Gemini API, 实现Unity游戏中日文文本的自动翻译
人工智能·python·游戏·机器学习·unity·github·机器翻译
IT猿手1 小时前
超多目标优化:基于导航变量的多目标粒子群优化算法(NMOPSO)的无人机三维路径规划,MATLAB代码
人工智能·算法·机器学习·matlab·无人机
訾博ZiBo1 小时前
AI日报 - 2025年2月23日 - 推特版
人工智能