【自然语言处理与大模型】模型压缩技术之剪枝

一、什么是模型剪枝？

模型剪枝（Model Pruning）是一种神经网络模型压缩技术，其核心思想是通过删除或稀疏化模型中冗余的部分（如不重要的参数或神经元连接），在尽量保持模型性能的前提下，减少模型的参数量和计算量，从而提高运行效率，降低存储和部署成本。
剪枝前后的神经元和参数

【注】为什么能剪？剪了难道就没影响吗？

模型中许多参数对最终的预测结果贡献较小或是没有显著作用。模型剪枝的核心原理****在于识别并移除这些不太重要性的参数或结构，从而简化模型。即便对模型精度造成了影响，也可以对模型再进行微调来提升精度。
左边是剪枝之前的权重很多都是0，不太重要

以深度神经网络为例，模型剪枝可以作用于以下部分：

模型剪枝的分类，也就是怎么去剪呢？可以分成两类：

**结构化剪枝（Structured Pruning）：**直接删除神经网络中的某些结构化部分（如神经元、卷积通道或层）。这种剪枝方式更适合硬件加速，因为剪枝后的模型仍然是稠密的，易于部署。
**非结构化剪枝（Unstructured Pruning）：**移除网络中单个、独立的权重（不考虑结构）。剪枝后的模型通常是稀疏的，需要特殊的稀疏矩阵存储和计算优化。

类型	优点	缺点
非结构化剪枝	剪枝算法简单，模型压缩比高	精度不可控，剪枝后权重矩阵稀疏，没有专用硬件难以实现压缩和加速的效果
结构化剪枝	大部分算法在 channel 或者 layer 上进行剪枝，保留原始卷积结构，不需要专用硬件来实现	剪枝算法相对复杂