LLM 压缩之二: ShortGPT

0. 资源链接

1. 背景动机

现有的大语言模型 LLM 推理存在以下问题:

  • LLM 模型因为 scale law 极大的提高模型的预测能力,但是同样带来较大的推理延时;对于 LLM 应用部署带来较大的挑战。

  • 目前的大模型加速的方法主要分为量化和压缩两种,目前量化和压缩一般需要训练以恢复模型精度,尤其量化较低比特时。

2. 内容提要

  • 通过分析大模型存在的冗余性,发现在模型深度的维度存在大量的冗余;可以通过简单的去除冗余层来加速。

  • 本文提出了一个 BI score 的指标来表征层的重要性,基于 BI score,本文提出一个简单的深度剪枝方法。

3. 技术细节

  • BI score 计算公式:
  • 层冗余分析:

  • Layer 剪枝

    • 基于 BI score 排序,减去 BI score 小的层。

4. 实验分析

5. 一些思考

  • ShortGPT 给大模型剪枝提供了一个新视角,对后续的剪枝算法有较大启发。

  • ShortGPT 目前还比较简单,后续应该会有更多的工作出现,优化当前的方案。

相关推荐
张3蜂8 小时前
Ubuntu LLaMA-Factory实战
llama
逐梦苍穹8 小时前
速通LLaMA2:《Llama 2: Open Foundation and Fine-Tuned Chat Models》全文解读
论文阅读·人工智能·语言模型·llama·论文笔记·llama2
telllong8 小时前
使用llama.cpp 在推理MiniCPM-1.2B模型
c++·llama·llama.cpp
我爱学Python!3 天前
大模型教程:使用 Milvus、vLLM 和 Llama 3.1 搭建 RAG 应用
自然语言处理·大模型·llm·大语言模型·llama·milvus·rag
强哥之神4 天前
白话:大型语言模型中的幻觉(Hallucinations)
人工智能·机器学习·语言模型·自然语言处理·llm·llama·hallucinations
wx7408513265 天前
小琳AI课堂:LLaMA 3.1 开源大模型的全新里程碑
人工智能·llama
YueTann5 天前
大模型入门3:理解LLAMA
android·llama
William.csj5 天前
大模型——LLaVA和LLaMA的介绍和区别
llama·llava
Elastic 中国社区官方博客5 天前
使用 Elastic 和 LM Studio 的 Herding Llama 3.1
大数据·人工智能·elasticsearch·搜索引擎·ai·语言模型·llama
再不会python就不礼貌了5 天前
一步步教你利用大模型开发个性化AI应用,告别‘人工智障’!
人工智能·学习·算法·oracle·llama