0. 资源链接
-
项目代码: 待开源
1. 背景动机
现有的大语言模型 LLM 推理存在以下问题:
-
LLM 模型因为 scale law 极大的提高模型的预测能力,但是同样带来较大的推理延时;对于 LLM 应用部署带来较大的挑战。
-
目前的大模型加速的方法主要分为量化和压缩两种,目前量化和压缩一般需要训练以恢复模型精度,尤其量化较低比特时。
2. 内容提要
-
通过分析大模型存在的冗余性,发现在模型深度的维度存在大量的冗余;可以通过简单的去除冗余层来加速。
-
本文提出了一个 BI score 的指标来表征层的重要性,基于 BI score,本文提出一个简单的深度剪枝方法。
3. 技术细节
- BI score 计算公式:
-
层冗余分析:
-
Layer 剪枝
- 基于 BI score 排序,减去 BI score 小的层。
4. 实验分析
5. 一些思考
-
ShortGPT 给大模型剪枝提供了一个新视角,对后续的剪枝算法有较大启发。
-
ShortGPT 目前还比较简单,后续应该会有更多的工作出现,优化当前的方案。