LLM 压缩之二: ShortGPT

AI-Seeker2024-08-25 0:08

0. 资源链接

论文: https://arxiv.org/pdf/2403.03853
项目代码: 待开源

1. 背景动机

现有的大语言模型 LLM 推理存在以下问题：

LLM 模型因为 scale law 极大的提高模型的预测能力，但是同样带来较大的推理延时；对于 LLM 应用部署带来较大的挑战。
目前的大模型加速的方法主要分为量化和压缩两种，目前量化和压缩一般需要训练以恢复模型精度，尤其量化较低比特时。

2. 内容提要

通过分析大模型存在的冗余性，发现在模型深度的维度存在大量的冗余；可以通过简单的去除冗余层来加速。
本文提出了一个 BI score 的指标来表征层的重要性，基于 BI score，本文提出一个简单的深度剪枝方法。

3. 技术细节

BI score 计算公式：

层冗余分析：

Layer 剪枝
- 基于 BI score 排序，减去 BI score 小的层。

4. 实验分析

5. 一些思考

ShortGPT 给大模型剪枝提供了一个新视角，对后续的剪枝算法有较大启发。
ShortGPT 目前还比较简单，后续应该会有更多的工作出现，优化当前的方案。

上一篇：正则表达式简记

下一篇：JVM 方法区存放那些内容

热门推荐

01GitHub 镜像站点 02BongoCat - 跨平台键盘猫动画工具 03UV安装并设置国内源 04Linux下V2Ray安装配置指南 05GitLab 零基础入门指南：从安装到项目管理全流程 06Burp与其他安全工具联动及代理设置教程 07Pycharm+Neo4j红楼梦人物关系图谱 08NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 09jdk21下载、安装（Windows、Linux、macOS）10Labelme从安装到标注：零基础完整指南