【文献阅读】Faster and Lighter LLMs: A Survey on Current Challenges and Way Forward

更快更轻量级的大语言模型：当前挑战与未来发展方向综述

摘要

尽管大语言模型（LLMs）表现出色，但由于推理过程中需要大量的计算资源和内存，其广泛应用面临挑战。最近在模型压缩和系统级优化方法方面的进展旨在提高大语言模型的推理效率。本综述概述了这些方法，重点介绍了最新进展。通过对LLaMA(/2)-7B模型的实验，我们评估了各种压缩技术，为在统一环境中高效部署大语言模型提供了实用见解。对LLaMA(/2)-7B模型的实证分析突出了这些方法的有效性。基于综述的见解，我们找出了当前的局限性，并讨论了提高大语言模型推理效率的潜在未来方向。我们在https://github.com/nyunAI/Faster-LLM-Survey上发布了用于复现本文结果的代码库。

针对的评估方法：

A100Exllama：研究使用GPTQ量化的Exllama引擎。

A100Exllamav2：探索最新的ExllamaV2，该版本具有EXL2和GPTQ量化功能。

A100Llamacpp：审视Llama架构的C++实现，以提升速度。

A100MLCLLM：探索MLCLLM，该分支提供广泛的硬件和平台支持。

A100TGI：研究用于大语言模型（LLM）生产推理的文本生成推理工具包。

A100VLLM：探索VLLM。

A100TensorRTLLM：研究英伟达的TensorRTLLM推理引擎。

A100GPTQ：通过AutoGPTQ探索GPTQ量化方法。

A100HF：研究多种量化方法，以及每种方法的基线生成速度。

A100Omniquant：探索OmniQuant量化方法。

Hugging Face模型中心（HF Hub）获取的模型和规模。

1. 引言

以GPT系列[Brown等人, 2020]和LLaMa系列[Touvron等人, 2023a; Touvron等人, 2023b]为代表的大语言模型的出现，为文本理解、摘要、语言翻译和生成等各类语言相关任务带来了一场新的革命。这些模型通常包含数十亿个参数，在捕捉自然语言中的复杂模式、精细上下文和语义表示方面表现卓越。因此，它们已成为各种应用中不可或缺的工具，推动了人工智能、信息检索和人机交互等多个领域的发展。

尽管大语言模型性能无与伦比，但其大规模应用受到了巨大的计算和内存需求的阻碍，这给在资源受限的环境中进行部署带来了挑战。例如，加载一个LLaMa-70B 模型，不包括模型推理所需的内存，就需要140GB的VRAM。对高效部署的需求促使最近出现了针对大语言模型的模型压缩和系统级修改技术的研究。这些早期工作已经找到了提高大语言模型推理效率的潜在途径。然而，目前的改进往往伴随着模型性能的显著下降，需要探索新的研究方向以找到解决这一问题的理想方案。

最近的一项综述研究简要概述了最近提出的大语言模型压缩 方法，以及用于基准测试的评估指标和数据[Zhu等人, 2023]。然而，为了进一步推动研究朝着提高大语言模型实际推理效率的方向发展，仍缺乏全面的研究。在这篇综述文章中，我们探索了通过模型压缩和系统级优化来提高大语言模型效率的现有方法。为了公平地比较各种方法，我们对应用于LLaMA(/2)-7B 模型的不同压缩技术进行了实证观察。我们的评估包括那些具有实际优势的方法，涵盖了现有文献中不同推理引擎提供的结构化剪枝、量化和系统级优化方法。我们分享了从这些实验中获得的宝贵见解，以帮助人们对高效的大语言模型有更实用的理解。此外，我们公开了与实验相关的代码和基准测试。我们还研究了当前深度学习通用压缩方法以及专门针对大语言模型提出的压缩方法所面临的困难，并讨论了克服这些问题的潜在研究方向。

总体而言，本文的贡献如下：

我们简要概述了模型压缩领域，重点介绍了对更轻量级、更快的大语言模型领域 做出显著贡献的关键方法。

作为模型压缩的补充，系统级修改在加速大语言模型推理方面发挥了重要作用，我们也对这些方法进行了讨论。

为了提供实际视角，我们在标准化设置下对知名的大语言模型压缩方法进行了实证分析。从中得出的见解有助于根据部署环境 对大语言模型压缩方法的选择做出明智决策。

基于我们的综述和实证分析得出的见解，我们系统地指出了现有局限性，并提出了实现大语言模型推理最优效率的可行途径。

2. 模型压缩：概述

模型压缩技术已成为一个关键的研究领域，为提高资源密集型深度学习模型的效率提供了有前景的解决方案。开发高效大语言模型（LLMs）的领域可以从该领域的见解和方法中显著受益。在深入探讨构建高效大语言模型的主题及其相关现有工作之前，我们先概述一些深度学习模型压缩中常用的方法。下面，我们首先介绍传统的模型压缩方法，并简要讨论与传统深度学习模型相关的发展。随后，我们概述现有文献中与大语言模型压缩相关的工作。

2.1 深度模型的压缩

架构剪枝是指通过消除冗余或影响较小的连接、神经元或整个层，系统地降低神经网络复杂度的过程[Janowsky, 1989]。该技术旨在提高模型效率、降低计算成本并减轻过拟合，同时不会显著影响性能。剪枝涉及根据各种标准识别并删除连接或单元，例如权重大小[Li等人, 2016]、激活模式[Molchanov等人, 2016]或敏感性分析[Sanh等人, 2020]。剪枝后的模型保留其关键特征，同时实现更紧凑的表示，这在计算资源有限的场景中（如边缘设备或移动应用）尤为有价值。

在广泛研究的剪枝方法中，-[Frankle和Carbin, 2019]对权重初始化和剪枝后的网络结构对神经网络剪枝的影响提供了基本见解。-[Liu等人, 2017; Chavan等人, 2022]引入了一种方法，通过对通道缩放因子施加稀疏性正则化，对卷积神经网络（CNNs）中的通道进行剪枝，并减小Transformer中权重维度的大小。移动剪枝通过利用一阶信息 （即保留远离零的权重）对BERT[Kenton和Toutanova, 2019]模型进行大规模剪枝，与保留较大权重的零阶方法 形成对比。[Lagunas等人, 2021]在Transformer层的权重矩阵中引入块结构 ，并对其应用移动剪枝 以实现实际的加速。最近，[Jiang等人, 2023a]认为对于一阶剪枝 ，微调是多余的，并提出了静态模型剪枝（SMP） ，这是一种无需微调的语言模型剪枝方法 。

量化降低了神经网络中数值的精度，通常是从32位浮点数降低到较低的比特宽度表示，例如8位整数，从而缩小了模型的内存占用，加快了推理速度，并能够在计算资源有限的硬件上更高效地部署。在量化过程中，权重和/或激活值被舍入到一组离散的值，这在计算效率和模型准确性之间进行了权衡。即使精度降低，最先进的量化方法也能够将对性能的影响降至最低。

量化感知训练（QAT） [Ni等人, 2020]涉及在整个训练过程（包括前向传递和反向传播）中对模型参数进行量化。LSQ[Esser等人, 2019]为每个权重提出了一个可学习的步长，与其他网络参数一起进行学习。[Tailor等人, 2021]引入了一种与架构无关的图神经网络剪枝 方法。另一方面，训练后量化（PTQ ）[Banner等人, 2019]找出权重和激活的最优裁剪范围 和通道比特宽度设置 。OSME[Choukroun等人, 2019]提出了一种训练后量化方法，该方法最小化量化张量与相应浮点张量之间的12 距离。

知识蒸馏旨在训练一个计算效率高的模型（通常称为学生模型），以模仿更大、更复杂的模型（称为教师模型）的预测。这个过程涉及将教师模型中嵌入的知识（通常以其软概率或中间表示为特征）转移到学生模型中。当在计算资源有限的场景中部署模型时，知识蒸馏特别有用，因为它能够创建较小的模型，同时保留较大模型的性能。此外，知识蒸馏有助于解决过拟合等问题，提高泛化能力，并便于将深度复杂模型学到的知识转移到更简单的架构中。

知识蒸馏技术可分为三类，即基于响应的、基于特征的和基于实例关系 的。基于响应的蒸馏[Hinton等人, 2015]训练学生模型模仿教师模型的最终输出，而基于特征的蒸馏[Tian等人, 2022]训练学生模型模仿教师模型的中间特征图 。基于关系的蒸馏更进一步，使用一个目标函数来建模学生和教师网络各种特征图 之间的相似性相关性。最近，[Chen等人, 2023b]在预训练阶段使用知识蒸馏，将BERT模型的大小缩小了40%，使其速度提高了60%，同时保留了97%的语言理解能力。

低秩分解通过将权重矩阵分解为较小维度的矩阵来降低模型的计算复杂度，这些较小的矩阵反过来近似初始的满秩矩阵。这也减少了模型中需要存储的参数数量，并加快了矩阵乘法运算，从而降低了内存和延迟需求。