LLM 模型压缩之三: FoldGPT

0. 资源链接

1. 背景动机

现有的大语言模型推理存在以下问题:

  • LLM 模型因为有大量的参数,以及 next token 的预测方式,导致 LLM 模型推理慢,计算消耗大。

  • 模型压缩,量化和蒸馏等技术用来加速 LLM 模型推理;以及目前有许多端侧 LLM 推理的需求对大模型推理时延很高,需要尽可能降低 LLM 的推理时延,目前的加速技术仍然存在挑战。

  • 目前压缩模型技术主要分析,剪枝模型宽度存在的冗余性,但是模型的finetune 仍然需要消耗较多算力。

  • 目前有一些工作如 ShortGPT 等工作发现 LLM 在深度存在冗余计算,在深度剪枝取得不错的效果。

2. 内容提要

  • 本文分析了LLM blocks 输出的值的相似度,发现在深度维度上存在大量冗余。

  • 本文提出一个叫做 FoldGPT 方法,主要由模块去除和模块共享技术。

  • 本文设计一种可学习的重要度度量来对 LLM block 重要性排序,用于去除不重要模块。

  • 本文通过大量实验验证了 FoldGPT 的有效性,在不少模型上取得 SOTA 压缩效果。

3. 技术细节

FoldGPT 包含4个主要部分:Redundancy analysis,Gated block removal,Grouped parameter sharing 和 Distillation fine-tuning。

3.1 Redundancy analysis

通过分析 block 输入输出的相似度,可以发现不同 model 都存在深度的冗余性。

3.2 Gated block removal

  • 由于之前 ShortGPT BI score 方法忽略模块之间的影响,所以不能找到全局最优的模块去除策略。

  • 本文通过引入学习的门控系数来学习模块之间去除影响重要性。

  • 通过实验对比发现 FoldGPT 效果要远好于 ShortGPT BI score。

3.3 Grouped parameter sharing

  • 通过 group方式,让group 内的block share weights,为了保持精度,增加少量可学习参数来微调模型。

3.4 Distillation fine-tuning

  • 通过 Lora 微调提高精度。

4. 实验结果

  • FoldGPT 效果要好于 ShortGPT,同时通过 finetune 压缩效果会更好。

5. 一些思考

  • FoldGPT 针对 ShortGPT BI score 存在的问题,提出可学习的 Gated block score 来找出 less import blocks。

  • 通过参数共享和微调的技术进一步提高模型推理速度。

相关推荐
Watermelo61722 分钟前
Manus使用的MCP协议是什么?人工智能知识分享的“万能插头”
人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理·数据挖掘
这就是编程1 小时前
自回归模型的新浪潮?GPT-4o图像生成技术解析与未来展望
人工智能·算法·机器学习·数据挖掘·回归
自由鬼1 小时前
GPT Workspace体验
人工智能·gpt
星际码仔6 小时前
AutoGLM沉思,仍然没有摆脱DeepResearch产品的通病
人工智能·ai编程·chatglm (智谱)
喝拿铁写前端7 小时前
前端与 AI 结合的 10 个可能路径图谱
前端·人工智能
城电科技8 小时前
城电科技|零碳园区光伏太阳花绽放零碳绿色未来
人工智能·科技·能源
HyperAI超神经8 小时前
Stable Virtual Camera 重新定义3D内容生成,解锁图像新维度;BatteryLife助力更精准预测电池寿命
图像处理·人工智能·3d·数学推理·视频生成·对话语音生成·蛋白质突变
Chaos_Wang_8 小时前
NLP高频面试题(二十三)对抗训练的发展脉络,原理,演化路径
人工智能·自然语言处理
Yeats_Liao8 小时前
华为开源自研AI框架昇思MindSpore应用案例:基于MindSpore框架实现PWCNet光流估计
人工智能·华为
说私域8 小时前
人工智能赋能美妆零售数字化转型:基于开源AI大模型的S2B2C商城系统构建
人工智能·小程序·开源·零售