PYTHON+AI LLM DAY SEVENTY

RSTJ_16252026-06-09 9:34

今天简单聊聊模型压缩(Model compression):意思就是在对原有模型的性能影响不大的情况下,减小模型的存储空间,以此来加快模型的响应时间.就是以空间换时间.为什么要进行模型压缩?主要是在实际情况下,企业在考虑预算,收益等实际情况下.需要模型方便部署上线,尽快获取收益而采取的策略.模型压缩的方式有:量化:用一些低精度的浮点数(比特位少,存储空间小)替换模型中原本高精度(比特位多,存储空间大)的浮点数,量化方式有:量化感知训练(QAT):一边训练一边量化.动态量化(DQ):训练结束后,在模型推理的时候执行.静态量化(PTQ)训练结束后:在校准步骤时间执行.蒸馏:将一个已经训练好的复杂模型迁移到低层的网络空间中.本质就是让简单模型去学习复杂模型的推理方式等,以此让自己的推理能力接近于复杂模型.过程就是:简单模型根据自己的输出概率分布,对照复杂模型的硬标签,软标签,中间层.来计算损失.然后反向传播,更新简单模型的参数,剪枝:在一些深度伸神经网络中,某些参数的输出结果对模型的输出结果没啥大的影响,删除这些连接和参数.剪枝的两种方式:物理剪枝,直接去掉这些神经元,逻辑剪枝:让相关参数为0.低秩分解:在某些矩阵运算中.将一个大型矩阵分解成多个小型矩阵的乘积.这大大减少了参数量.