论文略读: STREAMLINING REDUNDANT LAYERS TO COMPRESS LARGE LANGUAGE MODELS

2025 ICLR

  • 判断模型层的重要性->剪去不重要的层(用轻量网络代替)
    • 这种方法只减少了层数量,所以可以用常用的方法加载模型
  • 层剪枝阶段
    • 通过输入与输出的余弦相似度来判断各个层的重要性
    • 具有高余弦相似度的层倾向于聚集在一起,因此该方法会修剪连续的层
  • 层替换阶段
    • 训练了一个轻量级蒸馏小模型来弥补剪枝带来的性能损失
    • 根据预定义的修剪率选择从 i 到 i+n 的层进行修剪后,从第 i 层的输入和第 i+n 层的输出中收集隐藏状态作为训练数据,并使用 MSE Loss 通过蒸馏来训练一个轻量级模型
    • 层替换 VS LoRA
      • 过去的结构化剪枝方法一般使用 LoRA 方法训练,而相比之下,层替换方法有着以下优势:
        • 更低的 GPU 内存消耗
          • 层替换方法只需要在隐藏状态收集期间对原始模型进行前向传播的成本
          • 在训练期间,仅训练轻量级网络
          • ------>比 LoRA 更节省内存
        • 更合理的训练方法
          • LoRA 直接训练剩余的层
          • ------>用轻量级网络替换修剪层比训练剩余层更简单
相关推荐
sali-tec2 小时前
C# 基于halcon的视觉工作流-章66 四目匹配
开发语言·人工智能·数码相机·算法·计算机视觉·c#
这张生成的图像能检测吗2 小时前
(论文速读)ParaDiffusion:基于信息扩散模型的段落到图像生成
人工智能·机器学习·计算机视觉·文生图·图像生成·视觉语言模型
新程记2 小时前
2025年,上海CAIE认证报考指南:把握AI机遇的实用起点
人工智能·百度
unicrom_深圳市由你创科技3 小时前
汽修AI智能体V1.0——从模型微调到应用部署
人工智能
路边草随风3 小时前
milvus向量数据库使用尝试
人工智能·python·milvus
irizhao3 小时前
基于深度学习的智能停车场系统设计与实现
人工智能·深度学习
九河云4 小时前
华为云 ECS 弹性伸缩技术:应对业务峰值的算力动态调度策略
大数据·服务器·人工智能·物联网·华为云
IT空门:门主4 小时前
Spring AI的教程,持续更新......
java·人工智能·spring·spring ai
美狐美颜SDK开放平台5 小时前
美颜sdk是什么?如何将美颜SDK接入安卓/iOS直播平台?
人工智能·美颜sdk·直播美颜sdk·美颜api·美狐美颜sdk
AI营销资讯站5 小时前
AI营销内容生产:哪些平台支持全球多语言内容同步生产?
大数据·人工智能