论文略读: STREAMLINING REDUNDANT LAYERS TO COMPRESS LARGE LANGUAGE MODELS

2025 ICLR

  • 判断模型层的重要性->剪去不重要的层(用轻量网络代替)
    • 这种方法只减少了层数量,所以可以用常用的方法加载模型
  • 层剪枝阶段
    • 通过输入与输出的余弦相似度来判断各个层的重要性
    • 具有高余弦相似度的层倾向于聚集在一起,因此该方法会修剪连续的层
  • 层替换阶段
    • 训练了一个轻量级蒸馏小模型来弥补剪枝带来的性能损失
    • 根据预定义的修剪率选择从 i 到 i+n 的层进行修剪后,从第 i 层的输入和第 i+n 层的输出中收集隐藏状态作为训练数据,并使用 MSE Loss 通过蒸馏来训练一个轻量级模型
    • 层替换 VS LoRA
      • 过去的结构化剪枝方法一般使用 LoRA 方法训练,而相比之下,层替换方法有着以下优势:
        • 更低的 GPU 内存消耗
          • 层替换方法只需要在隐藏状态收集期间对原始模型进行前向传播的成本
          • 在训练期间,仅训练轻量级网络
          • ------>比 LoRA 更节省内存
        • 更合理的训练方法
          • LoRA 直接训练剩余的层
          • ------>用轻量级网络替换修剪层比训练剩余层更简单
相关推荐
兔兔西9 分钟前
【AI学习】检索增强生成(Retrieval Augmented Generation,RAG)
人工智能
#guiyin1115 分钟前
基于机器学习的心脏病预测模型构建与可解释性分析
人工智能·机器学习
IMA小队长29 分钟前
06.概念二:神经网络
人工智能·深度学习·机器学习·transformer
罗西的思考32 分钟前
探秘Transformer系列之(35)--- 大模型量化基础
人工智能·深度学习·机器学习
AI大模型系统化学习34 分钟前
AI产品风向标:从「工具属性」到「认知引擎」的架构跃迁
大数据·人工智能·ai·架构·大模型·ai大模型·大模型学习
拾忆-eleven3 小时前
NLP学习路线图(十六):N-gram模型
人工智能·学习·自然语言处理
编程有点难3 小时前
Python训练打卡Day39
人工智能·python·深度学习
小喵喵生气气3 小时前
Python60日基础学习打卡Day40
人工智能·深度学习·机器学习
广州智造4 小时前
OptiStruct实例:消声器前盖ERP分析(2)RADSND基础理论
数据库·人工智能·算法·机器学习·数学建模·3d·软件构建
爱写代码的小朋友4 小时前
智变与重构:AI 赋能基础教育教学的范式转型研究报告
人工智能·重构