今天简单聊聊模型压缩(Model compression):意思就是在对原有模型的性能影响不大的情况下,减小模型的存储空间,以此来加快模型的响应时间.就是以空间换时间.为什么要进行模型压缩?主要是在实际情况下,企业在考虑预算,收益等实际情况下.需要模型方便部署上线,尽快获取收益而采取的策略.模型压缩的方式有:量化:用一些低精度的浮点数(比特位少,存储空间小)替换模型中原本高精度(比特位多,存储空间大)的浮点数,量化方式有:量化感知训练(QAT):一边训练一边量化.动态量化(DQ):训练结束后,在模型推理的时候执行.静态量化(PTQ)训练结束后:在校准步骤时间执行.蒸馏:将一个已经训练好的复杂模型迁移到低层的网络空间中.本质就是让简单模型去学习复杂模型的推理方式等,以此让自己的推理能力接近于复杂模型.过程就是:简单模型根据自己的输出概率分布,对照复杂模型的硬标签,软标签,中间层.来计算损失.然后反向传播,更新简单模型的参数,剪枝:在一些深度伸神经网络中,某些参数的输出结果对模型的输出结果没啥大的影响,删除这些连接和参数.剪枝的两种方式:物理剪枝,直接去掉这些神经元,逻辑剪枝:让相关参数为0.低秩分解:在某些矩阵运算中.将一个大型矩阵分解成多个小型矩阵的乘积.这大大减少了参数量.
相关推荐
qq 13740186111 小时前
医用无菌屏障系统加速老化标准解读:ASTM F1980-2016 全解析FOORIR 客流统计1 小时前
客流统计系统的工程实现:从线穿越计数到多目标跟踪小二·1 小时前
AI Agent 数据库运维实战像风一样自由20201 小时前
量化压缩实战:INT8 / INT4 / AWQ / GPTQ 全面对比SiYuanFeng1 小时前
大模型 / RAG / Agent 面试高频题财经资讯数据_灵砚智能1 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年6月8日数据分析能量站1 小时前
Anthropic关于AI的看法:人类研发正在快速边缘化武子康1 小时前
调查研究-159 Apple WWDC 2026 定档 6/8-12:Siri 与 AI 升级,可能是苹果最关键的一次仙女修炼史1 小时前
Transformer思想根源PDP:Parallel Distributed Processing读书笔记