LLM 压缩之二: ShortGPT

0. 资源链接

1. 背景动机

现有的大语言模型 LLM 推理存在以下问题:

  • LLM 模型因为 scale law 极大的提高模型的预测能力,但是同样带来较大的推理延时;对于 LLM 应用部署带来较大的挑战。

  • 目前的大模型加速的方法主要分为量化和压缩两种,目前量化和压缩一般需要训练以恢复模型精度,尤其量化较低比特时。

2. 内容提要

  • 通过分析大模型存在的冗余性,发现在模型深度的维度存在大量的冗余;可以通过简单的去除冗余层来加速。

  • 本文提出了一个 BI score 的指标来表征层的重要性,基于 BI score,本文提出一个简单的深度剪枝方法。

3. 技术细节

  • BI score 计算公式:
  • 层冗余分析:

  • Layer 剪枝

    • 基于 BI score 排序,减去 BI score 小的层。

4. 实验分析

5. 一些思考

  • ShortGPT 给大模型剪枝提供了一个新视角,对后续的剪枝算法有较大启发。

  • ShortGPT 目前还比较简单,后续应该会有更多的工作出现,优化当前的方案。

相关推荐
神秘的土鸡2 小时前
如何在WPS中接入DeepSeek并使用OfficeAI助手(超细!成功版本)
人工智能·机器学习·自然语言处理·数据分析·llama·wps
背太阳的牧羊人14 小时前
通过 Groq 后端加载Llama 模型,并调用Function call,也就是通过Groq 后端进行工具的绑定和调用
语言模型·llama·function_call
失眠的树亚14 小时前
llama-factory || AutoDL平台 ||启动web界面
llama
m0_3755997314 小时前
大模型管理工具:LLaMA-Factory
llama·模型微调
FOUR_A21 小时前
【LLM】从零开始实现 LLaMA3
人工智能·算法·机器学习·大模型·llama
__echooo21 小时前
【大模型】Llama 3.2 大语言模型初探:模型权重下载
人工智能·算法·ubuntu·语言模型·自动驾驶·llama
失眠的树亚2 天前
llama-factory || AutoDL || 如何使用自己的数据集进行微调
llama
三月七(爱看动漫的程序员)2 天前
PARETO PROMPT OPTIMIZATION
人工智能·gpt·支持向量机·langchain·prompt·gpt-3·llama
gz7seven2 天前
大模型学习笔记------Llama 3模型架构简介
大模型·大语言模型·llama·llama 3
嘟嘟Listing2 天前
llama-factory 记录
llama