论文略读: STREAMLINING REDUNDANT LAYERS TO COMPRESS LARGE LANGUAGE MODELS

2025 ICLR

  • 判断模型层的重要性->剪去不重要的层(用轻量网络代替)
    • 这种方法只减少了层数量,所以可以用常用的方法加载模型
  • 层剪枝阶段
    • 通过输入与输出的余弦相似度来判断各个层的重要性
    • 具有高余弦相似度的层倾向于聚集在一起,因此该方法会修剪连续的层
  • 层替换阶段
    • 训练了一个轻量级蒸馏小模型来弥补剪枝带来的性能损失
    • 根据预定义的修剪率选择从 i 到 i+n 的层进行修剪后,从第 i 层的输入和第 i+n 层的输出中收集隐藏状态作为训练数据,并使用 MSE Loss 通过蒸馏来训练一个轻量级模型
    • 层替换 VS LoRA
      • 过去的结构化剪枝方法一般使用 LoRA 方法训练,而相比之下,层替换方法有着以下优势:
        • 更低的 GPU 内存消耗
          • 层替换方法只需要在隐藏状态收集期间对原始模型进行前向传播的成本
          • 在训练期间,仅训练轻量级网络
          • ------>比 LoRA 更节省内存
        • 更合理的训练方法
          • LoRA 直接训练剩余的层
          • ------>用轻量级网络替换修剪层比训练剩余层更简单
相关推荐
jonyleek24 分钟前
如何搭建一套安全的,企业级本地AI专属知识库系统?从安装系统到构建知识体系,全流程!
人工智能·安全
MQ_SOFTWARE1 小时前
AI驱动的金融推理:Fin-R1模型如何重塑行业决策逻辑
人工智能·金融
生医转码,四海为家1 小时前
零基础-动手学深度学习-6.6 卷积神经网络(LeNet)
人工智能·深度学习·cnn
无名工程师1 小时前
AI 学习过程中各阶段的学习重点、时间规划以及不同方向的选择与建议等内容
人工智能·学习
java1234_小锋1 小时前
【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 微博文章数据可视化分析-文章分类下拉框实现
python·自然语言处理·flask
WXX_s2 小时前
【OpenCV篇】OpenCV——03day.图像预处理(2)
人工智能·python·opencv·学习·计算机视觉
有才不一定有德2 小时前
深入剖析 MetaGPT 中的提示词工程:WriteCode 动作的提示词设计
人工智能·aigc·提示词工程
花月mmc3 小时前
CanMV-K230 AI学习笔记系列
人工智能·笔记·学习
s1ckrain3 小时前
【论文阅读】ON THE ROLE OF ATTENTION HEADS IN LARGE LANGUAGE MODEL SAFETY
论文阅读·人工智能·语言模型·大模型安全