AutoGPTQ量化方案

AutoGPTQ的工作原理具体如下:

一.量化技术:

通过量化技术,将模型中的浮点数参数转换为低精度的整数,从而减少模型大小和推理时间。例如把权重为F32(单精度浮点数)映射为Int4(4字节整数)。

常见的量化方法:
线性量化: 定义一个量化范围和一个量化步长(scale factor),将浮点数减去最小值(对于非对称量化,可能还要加上偏移量),然后除以量化步长,得到的结果向下取整即得到相应的整数值。

二.知识蒸馏:

大型复杂模型(被称为"教师模型",Teacher Model)中的知识转移给小型简洁模型(被称为"学生模型",Student Model),从而使学生模型在保持或接近教师模型性能的同时,拥有更小的模型体积和更快的运算速度。

具体过程:

  1. 使用教师模型对训练集进行前向传播(实际上就是输入一次训练集),并记录下softmax后的输出概率分布。

  2. 让学生模型在同一训练集上进行训练,除了常规的交叉熵损失外,还添加一项额外的损失项,该损失项基于学生模型的输出与教师模型的软目标之间的差异

  3. 通过联合优化这两项损失,学生模型逐渐逼近教师模型的预测行为。

  4. 此外,知识蒸馏还可以扩展到特征级别的蒸馏,即不仅匹配输出的概率分布,还可以让学生模型学习模仿教师模型内部某几层的特征表示

三.直方图方法:

在量化过程中,采用直方图方法来估计低精度权重的分布。这种方法通过对浮点数权重进行直方图统计,将权重分为多个区间,每个区间对应一个低精度值
计算过程:

  1. 直方图计算: 在准备量化模型时,会首先收集训练或校准数据集中每个层的权重值的分布,通过计算每个值出现的频率来构建直方图。直方图反映了数据,在整个数值范围内的分布状况。
  2. 量化边界确定: 根据直方图确定量化区间的边界(量化bins)。
  3. 量化映射: 利用直方图统计信息,确定量化表(LUT) ,该表提供了从浮点值到整数表示的映射关系 。在量化过程中,每个浮点数会被映射到与其最接近的,量化边界所对应的整数值上
  4. 饱和度处理: 对于超出量化范围的极端值,需要采取特定策略处理,如截断(clipping)、溢出保护或者其他饱和度处理机制,以防止量化过程中的信息丢失过大。

四.梯度下降:

使用梯度下降方法优化超参数,以最小化量化误差并提高模型性能。

相关推荐
点云SLAM22 分钟前
C++ 常见面试题汇总
java·开发语言·c++·算法·面试·内存管理
叙白冲冲26 分钟前
哈希算法以及面试答法
算法·面试·哈希算法
东风西巷27 分钟前
Balabolka:免费高效的文字转语音软件
前端·人工智能·学习·语音识别·软件需求
非门由也37 分钟前
《sklearn机器学习——管道和复合估计器》联合特征(FeatureUnion)
人工智能·机器学习·sklearn
l12345sy37 分钟前
Day21_【机器学习—决策树(1)—信息增益、信息增益率、基尼系数】
人工智能·决策树·机器学习·信息增益·信息增益率·基尼指数
非门由也37 分钟前
《sklearn机器学习——管道和复合估算器》异构数据的列转换器
人工智能·机器学习·sklearn
计算机毕业设计指导1 小时前
基于ResNet50的智能垃圾分类系统
人工智能·分类·数据挖掘
飞哥数智坊1 小时前
终端里用 Claude Code 太难受?我把它接进 TRAE,真香!
人工智能·claude·trae
小王爱学人工智能1 小时前
OpenCV的阈值处理
人工智能·opencv·计算机视觉
YuTaoShao2 小时前
【LeetCode 每日一题】1277. 统计全为 1 的正方形子矩阵
算法·leetcode·矩阵