万字长文谈深度神经网络剪枝综述

0 摘要

现代深度神经网络，特别是最近的大语言模型，具有巨大的模型大小，需要大量的计算和存储资源。为了在资源受限的环境中部署现代模型并加快推理速度，研究人员越来越多地探索剪枝技术。从2020年到2022年，每年发表超过千篇剪枝方面的论文。然而，缺乏关于剪枝的最新综述论文。为了解决这个问题，在本次调查中，我们对深度神经网络剪枝的现有研究工作进行了全面回顾，包括

通用/特定加速
何时剪枝
如何剪枝
融合剪枝和其他压缩技术

然后，我们对剪枝设置了七组对比（例如，非结构化/结构化、一次性/迭代、无数据/数据驱动、初始化/预训练权重等）进行彻底的比较分析，并探索了几个新兴主题，包括训练后剪枝、不同监督等级的剪枝，以揭示现有方法的共性和差异，并为进一步的方法开发奠定基础。

最后，我们对选择合适的剪枝方法提供了一些有价值的建议，并展望了神经网络剪枝的几个有前景的研究方向。

为了促进深度神经网络剪枝的未来研究，我们总结了广泛的剪枝应用（例如，对抗鲁棒性、自然语言理解等），并针对不同应用构建了数据集、网络和评估的精选集合。我们在 github 上维护一个存储库：github.com/hrcheng1066... ，作为神经网络剪枝论文和相应开源代码的综合资源。我们将不断更新此存储库以包含该领域的最新进展。

另外，我撰写的大模型相关的博客及配套代码 均整理放置在Github：llm-action，有需要的朋友自取。

1 介绍

在过去的几年中，深度神经网络（DNN）在各个领域和应用中取得了显著的进展，例如计算机视觉（CV）、自然语言处理（NLP）和音频信号处理（ASP）等等。尽管 DNN 在各个领域取得了显著的成功，但其性能在很大程度上依赖于模型参数和计算成本。例如，广泛使用的ResNet-50需要超过95MB的内存用于存储，包含超过2300万个可训练参数，并且需要 4 GFLOP（千兆浮点运算）的计算。在 ImageNet 上训练的 VGG-16 大小超过 500 MB 。基于 Transformer 架构的 GPT-3 模型由多达 1750 亿个参数组成，GPT-4 模型的参数甚至更多。目前扩大神经网络规模的趋势预计将持续下去。

然而，DNN 的参数越多，处理输入通常需要更多的时间和内存空间。与这些模型相关的高训练和推理成本对其在有限计算资源（例如：CPU、GPU 和内存）、能源和带宽限制的设备上的部署提出了重大挑战。

例如，自动驾驶、野外救援和丛林火灾预防等现实应用需要高精度和高效的资源利用，包括快速的实时响应和紧凑的内存占用。深度神经网络的计算复杂性和内存占用使得它们在边缘设备上部署不切实际[14]。近年来，随着大语言模型的流行，人们对具有灵活硬件要求的计算机压缩神经网络越来越感兴趣[15]。此外，包含冗余特征的深度神经网络可能会破坏其鲁棒性，从而增加对抗性攻击的风险[16]。例如，这些网络创建的高维特征空间可以为对抗性攻击提供更大的入口点，从而削弱网络泛化到原始训练数据之外的能力。

为了缓解这个问题，研究人员提出了各种神经网络压缩技术来设计轻量级模型，包括神经网络剪枝（[17]）、权重矩阵的低秩分解（[18, 19]）、量化（[11, 20] ]）、知识蒸馏（[21]）、神经架构搜索（[22, 23]）和其他压缩技术（[24, 25]）。其中，人们对神经网络剪枝的研究持续感兴趣，它已被证明是一种理想且有效的方法，可以在推理时节省内存空间和计算时间，同时保持与神经网络相当甚至更好的性能。

如图1所示，从2015年到2022年，关于剪枝的论文数量明显增加，占神经网络压缩领域一半以上的论文。

关于剪枝的研究早可以追溯到1988年的文献[26]。然而，直到[11]的出现，研究界才意识到剪枝在消除深度神经网络中冗余方面的显著潜力，剪枝开始受到广泛关注。有几篇文献回顾了深度神经网络剪枝的先前工作，如表 1 所示。尽管这些工作概述了剪枝的几个方面并为研究人员提供了有用的指导，但其中许多（[8,27,28,29] ）重点关注多种压缩技术，例如剪枝、量化和知识蒸馏，仅对每种技术进行简要调查。例如，米什拉等人[27]总结了压缩技术，包括剪枝、量化、低秩分解和知识蒸馏，其中剪枝主要是从通道/过滤器剪枝引入的，许多必要的剪枝技术（如彩票假设）并未包括在内。

一些综述工作（例如[30]）侧重于回顾卷积神经网络剪枝，而缺乏对其他深度神经网络（例如：循环神经网络（RNN））剪枝的描述。

f ( x ; w 0 ) f(\\mathbf{x};\\mathbf{w}_{0})