大模型剪枝新范式:先浓缩,再剪枝——DenoiseRotator技术解读

在大语言模型(LLM)快速发展的今天,庞大的参数规模带来高昂的推理存储成本和回复时延,已成为实际应用中的关键挑战。特别是在面向人机对话的应用场景,模型推理效率直接影响到对话体验。在推理优化方法中,参数剪枝作为一项经典的模型压缩技术,旨在通过剔除模型中"不重要"的权重来实现参数量的显著降低与计算效率的提升。然而,传统的"剪枝-微调"范式或直接的后训练剪枝方法,往往带来明显的模型性能损失,特别是在硬件友好的半结构化稀疏(如2:4稀疏)场景下,该问题尤为突出。这使得应用中的模型效果和推理效率,呈现一个"鱼和熊掌"的两难局面。

面对这项挑战,美团LongCat Interaction团队联合上海交通大学听觉认知与计算声学实验室,以及香港科技大学的研究者,共同完成了大模型剪枝方法的创新研究,提出了名为DenoiseRotator的新技术。通过首先对参数矩阵进行变换,"浓缩"对结果有影响力的参数,再对重要性最低的参数进行剪枝,实现了大模型剪枝的新范式。DenoiseRotator能够与现有的剪枝算法快速集成,有效缓解模型压缩带来的性能损失。这一研究成果已在2025年的NeurIPS会议上发表。

01 动机:传统剪枝的局限性------密集训练与稀疏推理的隐式冲突

传统后训练剪枝的一般流程可概括为:对一个已训练好的稠密模型 ,基于某种启发式准则(如权重幅值或Wanda、SparseGPT等算法)为每个参数赋予"重要性分数",随后根据预设的稀疏度阈值,移除分数较低的一部分权重。 尽管流程清晰,该方法存在一个本质局限:其整个剪枝过程建立在固定不变的参数空间 上,本质上是一种被动的筛选机制。这进一步凸显了以下深层冲突:

  • 密集训练 的本质是隐式地激励模型充分利用每一个参数。每个参数都承载了一定的知识或推理能力,并通过参数间的协同工作共同支撑模型的整体表达能力。

  • 稀疏推理 则要求模型仅基于被保留的部分参数完成推理任务,并保持高性能。

这种训练目标与推理机制之间的内在不一致,意味着直接裁剪必然会导致部分知识或推理能力的丢失,从而破坏原有参数间协同工作的平衡,引发性能下降。

02 技术方案:DenoiseRotator------从"被动筛选"到"主动优化"的范式转变

针对上述挑战,我们重新思考剪枝范式:能否在剪枝前先对模型进行稀疏性引导的优化 ,使其自身结构更易于被剪枝 ? 基于此,我们提出了"重要性浓缩"的全新思路,并开发了DenoiseRotator框架予以实现。

2.1 核心思想:重要性浓缩

我们的核心目标是在执行剪枝之前 ,将原本分散在众多参数上的重要性,尽可能地集中到一个较小的参数子集中 。这样,在后续剪枝过程中,被移除权重所包含的关键信息将大幅减少,从而显著增强剪枝的鲁棒性。 为量化并优化"浓缩"效果,我们引入了信息熵 作为衡量指标。通过将参数重要性分数归一化为概率分布,其熵值直接反映了重要性的集中程度:熵越低,表明重要性越集中于少数参数。因此,我们的优化目标明确为最小化归一化重要性分布的熵

2.2 实现机制:可学习的正交变换

DenoiseRotator通过向Transformer层中引入可学习的正交矩阵,实现重要性分布的熵减与浓缩。

如上图所示,我们在Transformer层的特定位置(例如Attention模块的Value和Output投影层前后)插入正交矩阵。这些矩阵对原始权重进行"旋转"变换,在保持模型输出完全不变(得益于正交变换的计算不变性)的前提下,重新分配参数的重要性。

2.3 关键优势

训练与剪枝解耦 :DenoiseRotator采用模块化设计 ,正交矩阵的优化与具体剪枝方法完全独立。我们首先利用校准数据,以最小化重要性熵为目标训练这些正交矩阵;训练完成后,将其合并回原始权重。此时,我们获得了一个"易于剪枝"的优化版稠密模型,可无缝对接任何现有剪枝工具(如SparseGPT、Wanda)进行后续操作。

优化过程稳定:正交变换具有保范数特性,确保在重新分布重要性时,既不会人为引入也不会丢失总重要性量,从而保证了优化过程的稳定性,不影响原始模型性能。

下图直观展示了DenoiseRotator的有效性。以LLaMA-3-8B模型首层输出投影层为例,经我们的方法变换后,参数重要性分布从分散趋于高度集中,为后续剪枝奠定了坚实基础。

03 实验验证

在前文中,我们介绍了DenoiseRotator的核心思想------通过重要性浓缩提升剪枝鲁棒性。那么,这一方法在实际效果上表现如何?我们针对多个主流开源大模型进行了全面评测,涵盖语言建模和零样本推理任务,并与现有剪枝方法进行了对比。

3.1 实验设置:覆盖多模型、多任务、多剪枝方法

为全面评估DenoiseRotator的有效性,我们在多样化的实验设置下进行了系统性验证。实验覆盖了从Mistral-7B、LLaMA3(8B/70B)到Qwen2.5(7B/14B/32B/72B)等多个主流开源大模型,评测任务包括语言建模(使用WikiText-2验证集的困惑度PPL作为指标)和零样本推理(在PIQA、WinoGrande、HellaSwag、ARC-e和ARC-c五个基准任务上评估平均准确率)。在基线方法方面,我们将DenoiseRotator与三类剪枝方法结合:经典方法Magnitude,以及先进方法Wanda和SparseGPT,并在非结构化(50%稀疏)和半结构化(2:4稀疏)两种稀疏模式下进行对比评测。

3.2 主要结果:语言建模与零样本推理全面提升

下表展示了不同模型在剪枝前后的困惑度(衡量语言建模能力)与零样本任务表现。DenoiseRotator在所有模型和稀疏模式下均显著降低剪枝造成的性能下降,尤其在2:4稀疏下提升更为明显。

3.3 深入分析:熵减如何驱动剪枝鲁棒性?

我们通过消融实验验证了重要性熵与剪枝效果的直接关联。以LLaMA3-8B为例,记录不同训练步数下的熵值变化与模型性能:

熵减少13%(步数100)即可带来零样本任务准确率提升3.66%(66.88%➡70.54%),困惑度降低19.5%(9.567➡7.701)。进一步优化可继续降低困惑度,验证了重要性集中度与剪枝鲁棒性的正相关

3.4 部署效率:轻量开销,显著收益

  • 参数增量:每层新增一个(hidden_size,hidden_size)正交矩阵。以LLaMA3-8B为例,总参数量增加约0.5B(占原模型6.7%)。通过分块对角矩阵(见论文附录)可进一步降低开销,适合资源受限场景。

  • 推理耗时:单层Transformer的2:4稀疏计算耗时4.37ms,加入正交矩阵后仅增加0.32ms(1.24×加速比 vs 稠密层)。

04 总结

DenoiseRotator提出了一种创新的剪枝视角:将模型准备(重要性浓缩)与模型压缩(剪枝)两个阶段解耦 。通过可学习的正交变换,主动实现参数重要性的浓缩,从而显著提升后续剪枝的鲁棒性。该方法具备即插即用的特性,为大规模语言模型的高效、高性能压缩提供了新的技术路径。

项目地址github.com/Axel-gu/Den...

希望跟大家一起学习交流。如果大家对这项工作感兴趣,欢迎在GitHub上Star、Fork并参与讨论!

| 关注「美团技术团队」微信公众号,在公众号菜单栏对话框回复【2024年货】、【2023年货】、【2022年货】、【2021年货】、【2020年货】、【2019年货】、【2018年货】、【2017年货】等关键词,可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品,著作权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容,敬请注明"内容转载自美团技术团队"。本文未经许可,不得进行商业性转载或者使用。任何商用行为,请发送邮件至 tech@meituan.com 申请授权。

相关推荐
世岩清上2 小时前
脑机接口:从实验室到生活场景的科技革命——2025全球科技展深度观察
人工智能·科技·生活
charlie1145141913 小时前
AVX 指令集系列深度介绍:领域、意义、以及 AVX AVX2 的基本用法与样例
开发语言·c++·人工智能·软件工程·并行计算·avx
AI浩3 小时前
【Block总结】门控注意力机制,最新注意力机制|即插即用|最佳论文奖
人工智能·语言模型·自然语言处理
老蒋新思维3 小时前
创客匠人推演:当知识IP成为“数字心智”的架构师——论下一代认知服务的形态
网络·人工智能·网络协议·tcp/ip·机器学习·创始人ip·创客匠人
AI营销干货站3 小时前
原圈科技AI市场舆情分析平台多维度能力评估及市场表现解析
大数据·人工智能
大山同学3 小时前
AI+材料表征(二)
人工智能
松果财经3 小时前
让创业更有后劲,长沙用金融铺就“成长跑道”
大数据·人工智能
Deepoch3 小时前
中国具身智能三大路径:极限挑战、柔性操作、普惠赋能,竞合共生
大数据·人工智能·物联网·机器人·具身模型·deepoc
brave and determined3 小时前
CANN训练营 学习(day12)昇腾AI处理器性能加速的利器:TIK实战配置与进阶开发指南
人工智能·实战·昇腾ai·开发环境配置·tik