今天简单聊聊模型压缩(Model compression):意思就是在对原有模型的性能影响不大的情况下,减小模型的存储空间,以此来加快模型的响应时间.就是以空间换时间.为什么要进行模型压缩?主要是在实际情况下,企业在考虑预算,收益等实际情况下.需要模型方便部署上线,尽快获取收益而采取的策略.模型压缩的方式有:量化:用一些低精度的浮点数(比特位少,存储空间小)替换模型中原本高精度(比特位多,存储空间大)的浮点数,量化方式有:量化感知训练(QAT):一边训练一边量化.动态量化(DQ):训练结束后,在模型推理的时候执行.静态量化(PTQ)训练结束后:在校准步骤时间执行.蒸馏:将一个已经训练好的复杂模型迁移到低层的网络空间中.本质就是让简单模型去学习复杂模型的推理方式等,以此让自己的推理能力接近于复杂模型.过程就是:简单模型根据自己的输出概率分布,对照复杂模型的硬标签,软标签,中间层.来计算损失.然后反向传播,更新简单模型的参数,剪枝:在一些深度伸神经网络中,某些参数的输出结果对模型的输出结果没啥大的影响,删除这些连接和参数.剪枝的两种方式:物理剪枝,直接去掉这些神经元,逻辑剪枝:让相关参数为0.低秩分解:在某些矩阵运算中.将一个大型矩阵分解成多个小型矩阵的乘积.这大大减少了参数量.
相关推荐
小和尚同志1 小时前
AI 自动化测试探索(二):Chrome-devtools MCP花酒锄作田1 小时前
Pydantic校验配置文件hboot1 小时前
AI工程师第四课 - 深度学习入门冬奇Lab3 小时前
Workflow 系列(02):设计范式——四层架构、三种 Context 传递模式与确认门设计冬奇Lab3 小时前
每日一个开源项目(第145篇):Trellis - 把项目记忆、规范和任务上下文持久化进代码仓库有道AI情报局3 小时前
Harness即产品罗西的思考4 小时前
机器人 / 强化学习】HIL-SERL:人类在环驱动的具身智能进化框架IT_陈寒5 小时前
SpringBoot自动配置的坑,我的API突然就404了笃行3506 小时前
从零到上线:用 EdgeOne Makers + CodeBuddy 搭一个「对账核对员」AI Agent用户6856326208696 小时前
Claude Code 乱猜字段名?我给它写了一个"数据库查询约束 Skill"