AutoGPTQ量化方案

AutoGPTQ的工作原理具体如下:

一.量化技术:

通过量化技术,将模型中的浮点数参数转换为低精度的整数,从而减少模型大小和推理时间。例如把权重为F32(单精度浮点数)映射为Int4(4字节整数)。

常见的量化方法:
线性量化: 定义一个量化范围和一个量化步长(scale factor),将浮点数减去最小值(对于非对称量化,可能还要加上偏移量),然后除以量化步长,得到的结果向下取整即得到相应的整数值。

二.知识蒸馏:

大型复杂模型(被称为"教师模型",Teacher Model)中的知识转移给小型简洁模型(被称为"学生模型",Student Model),从而使学生模型在保持或接近教师模型性能的同时,拥有更小的模型体积和更快的运算速度。

具体过程:

  1. 使用教师模型对训练集进行前向传播(实际上就是输入一次训练集),并记录下softmax后的输出概率分布。

  2. 让学生模型在同一训练集上进行训练,除了常规的交叉熵损失外,还添加一项额外的损失项,该损失项基于学生模型的输出与教师模型的软目标之间的差异

  3. 通过联合优化这两项损失,学生模型逐渐逼近教师模型的预测行为。

  4. 此外,知识蒸馏还可以扩展到特征级别的蒸馏,即不仅匹配输出的概率分布,还可以让学生模型学习模仿教师模型内部某几层的特征表示

三.直方图方法:

在量化过程中,采用直方图方法来估计低精度权重的分布。这种方法通过对浮点数权重进行直方图统计,将权重分为多个区间,每个区间对应一个低精度值
计算过程:

  1. 直方图计算: 在准备量化模型时,会首先收集训练或校准数据集中每个层的权重值的分布,通过计算每个值出现的频率来构建直方图。直方图反映了数据,在整个数值范围内的分布状况。
  2. 量化边界确定: 根据直方图确定量化区间的边界(量化bins)。
  3. 量化映射: 利用直方图统计信息,确定量化表(LUT) ,该表提供了从浮点值到整数表示的映射关系 。在量化过程中,每个浮点数会被映射到与其最接近的,量化边界所对应的整数值上
  4. 饱和度处理: 对于超出量化范围的极端值,需要采取特定策略处理,如截断(clipping)、溢出保护或者其他饱和度处理机制,以防止量化过程中的信息丢失过大。

四.梯度下降:

使用梯度下降方法优化超参数,以最小化量化误差并提高模型性能。

相关推荐
海底火旺2 分钟前
破解二维矩阵搜索难题:从暴力到最优的算法之旅
javascript·算法·面试
谦行9 分钟前
工欲善其事,必先利其器—— PyTorch 深度学习基础操作
pytorch·深度学习·ai编程
xwz小王子38 分钟前
Nature Communications 面向形状可编程磁性软材料的数据驱动设计方法—基于随机设计探索与神经网络的协同优化框架
深度学习
白熊1881 小时前
【计算机视觉】CV实战项目 - 基于YOLOv5的人脸检测与关键点定位系统深度解析
人工智能·yolo·计算机视觉
nenchoumi31191 小时前
VLA 论文精读(十六)FP3: A 3D Foundation Policy for Robotic Manipulation
论文阅读·人工智能·笔记·学习·vln
后端小肥肠1 小时前
文案号搞钱潜规则:日入四位数的Coze工作流我跑通了
人工智能·coze
LCHub低代码社区1 小时前
钧瓷产业原始创新的许昌共识:技术破壁·产业再造·生态重构(一)
大数据·人工智能·维格云·ai智能体·ai自动化·大禹智库·钧瓷码
黄昏ivi1 小时前
电力系统最小惯性常数解析
算法
-曾牛1 小时前
Spring AI 快速入门:从环境搭建到核心组件集成
java·人工智能·spring·ai·大模型·spring ai·开发环境搭建
阿川20151 小时前
云智融合普惠大模型AI,政务服务重构数智化路径
人工智能·华为云·政务·deepseek