AutoGPTQ量化方案

AutoGPTQ的工作原理具体如下:

一.量化技术:

通过量化技术,将模型中的浮点数参数转换为低精度的整数,从而减少模型大小和推理时间。例如把权重为F32(单精度浮点数)映射为Int4(4字节整数)。

常见的量化方法:
线性量化: 定义一个量化范围和一个量化步长(scale factor),将浮点数减去最小值(对于非对称量化,可能还要加上偏移量),然后除以量化步长,得到的结果向下取整即得到相应的整数值。

二.知识蒸馏:

大型复杂模型(被称为"教师模型",Teacher Model)中的知识转移给小型简洁模型(被称为"学生模型",Student Model),从而使学生模型在保持或接近教师模型性能的同时,拥有更小的模型体积和更快的运算速度。

具体过程:

  1. 使用教师模型对训练集进行前向传播(实际上就是输入一次训练集),并记录下softmax后的输出概率分布。

  2. 让学生模型在同一训练集上进行训练,除了常规的交叉熵损失外,还添加一项额外的损失项,该损失项基于学生模型的输出与教师模型的软目标之间的差异

  3. 通过联合优化这两项损失,学生模型逐渐逼近教师模型的预测行为。

  4. 此外,知识蒸馏还可以扩展到特征级别的蒸馏,即不仅匹配输出的概率分布,还可以让学生模型学习模仿教师模型内部某几层的特征表示

三.直方图方法:

在量化过程中,采用直方图方法来估计低精度权重的分布。这种方法通过对浮点数权重进行直方图统计,将权重分为多个区间,每个区间对应一个低精度值
计算过程:

  1. 直方图计算: 在准备量化模型时,会首先收集训练或校准数据集中每个层的权重值的分布,通过计算每个值出现的频率来构建直方图。直方图反映了数据,在整个数值范围内的分布状况。
  2. 量化边界确定: 根据直方图确定量化区间的边界(量化bins)。
  3. 量化映射: 利用直方图统计信息,确定量化表(LUT) ,该表提供了从浮点值到整数表示的映射关系 。在量化过程中,每个浮点数会被映射到与其最接近的,量化边界所对应的整数值上
  4. 饱和度处理: 对于超出量化范围的极端值,需要采取特定策略处理,如截断(clipping)、溢出保护或者其他饱和度处理机制,以防止量化过程中的信息丢失过大。

四.梯度下降:

使用梯度下降方法优化超参数,以最小化量化误差并提高模型性能。

相关推荐
阳光是sunny5 小时前
别再被 worktree 绕晕了!AI 编程时代你必须掌握的 Git 隔离神器
前端·人工智能·后端
冬奇Lab5 小时前
每日一个开源项目(第148篇):obsidian-skills - Obsidian CEO 亲写的 AI Agent 格式规范,让 Agent 不再破坏你的 Vault
人工智能·开源·资讯
ethantan6 小时前
AI Agent 组成:像人一样思考的智能体
人工智能·程序员·架构
冬奇Lab6 小时前
Workflow 系列(05):评测体系——三层测试结构与 Trace 追踪
人工智能·工作流引擎
ethantan6 小时前
一篇讲解AI Agent 组成:像人一样思考的智能体
人工智能·后端·程序员
Cosolar8 小时前
vLLM 生产级部署完全指南
人工智能·后端·架构
CodePlayer竟然被占用了9 小时前
被美国政府封杀18天,Claude Fable 5 回来了——但代价是什么?
人工智能
IT_陈寒9 小时前
垃圾回收器选错了,我的Java服务内存炸了
前端·人工智能·后端
HjhIron10 小时前
面试常客:字符串算法从入门到进阶
算法·面试
smartpi10 小时前
SmartPi GPIO 脉冲与回复语执行时序指南
人工智能