论文略读: STREAMLINING REDUNDANT LAYERS TO COMPRESS LARGE LANGUAGE MODELS

2025 ICLR

  • 判断模型层的重要性->剪去不重要的层(用轻量网络代替)
    • 这种方法只减少了层数量,所以可以用常用的方法加载模型
  • 层剪枝阶段
    • 通过输入与输出的余弦相似度来判断各个层的重要性
    • 具有高余弦相似度的层倾向于聚集在一起,因此该方法会修剪连续的层
  • 层替换阶段
    • 训练了一个轻量级蒸馏小模型来弥补剪枝带来的性能损失
    • 根据预定义的修剪率选择从 i 到 i+n 的层进行修剪后,从第 i 层的输入和第 i+n 层的输出中收集隐藏状态作为训练数据,并使用 MSE Loss 通过蒸馏来训练一个轻量级模型
    • 层替换 VS LoRA
      • 过去的结构化剪枝方法一般使用 LoRA 方法训练,而相比之下,层替换方法有着以下优势:
        • 更低的 GPU 内存消耗
          • 层替换方法只需要在隐藏状态收集期间对原始模型进行前向传播的成本
          • 在训练期间,仅训练轻量级网络
          • ------>比 LoRA 更节省内存
        • 更合理的训练方法
          • LoRA 直接训练剩余的层
          • ------>用轻量级网络替换修剪层比训练剩余层更简单
相关推荐
Cosolar10 分钟前
从零写一个 Attention Is All You Need
人工智能·面试·架构
ai_xiaogui22 分钟前
PanelAI:新一代AI算力调度系统,支持本地大模型一键部署与商业运营
人工智能·panelai·panelai算力调度系统·本地大模型一键部署平台·ai应用市场管理面板·企业级部署·2026本地ai私有化解决方案
冬奇Lab25 分钟前
Agent 系列(9):多 Agent 架构设计模式——Supervisor 与 Pipeline
人工智能·源码·agent
冬奇Lab34 分钟前
每日一个开源项目(第118篇):SkillOpt - 像训练神经网络一样优化 LLM Agent 的技能
人工智能·开源·agent
yuanyuan2o234 分钟前
模型预训练:Hugging Face Transformers 基础
算法·ai·语言模型·自然语言处理·nlp·深度优先
chengzi_beibei1 小时前
浏览器自动化的下一层:为什么 CloakBrowser 把指纹问题推到了源码层?
人工智能
甲维斯1 小时前
免费的Qwen3.7max终于来了!
人工智能
摆烂大大王1 小时前
玩转 OpenClaw:用 TaskFlow + Heartbeat 打造自动化工作流
前端·人工智能·自动化
zhangfeng11331 小时前
AI 每日动态推送|2026-05-30 codidng 机器人方向
人工智能·机器人