论文笔记:EMR-MERGING: Tuning-Free High-Performance Model Merging

2024 neurips

1 intro

  • 随着 HuggingFace、timm 和 torchvision 等开源仓库的发展,预训练与微调模型的数量激增 ,这导致模型部署的存储和成本负担加重

    • 多任务学习(MTL)通过联合训练多数据集来部分缓解上述问题,但它存在以下缺陷:
      • (i) 计算成本高;

      • (ii) 隐私数据限制导致数据不可获取

  • 因此,近年来出现了**模型融合(model merging)**方法,试图通过权重合并的方式绕过训练过程,减少计算与数据开销,具备重要的实际意义。

  • 一个简单的模型融合方法是对权重进行平均,但这往往会带来明显的性能下降

    • 为此,已有研究提出了三类主流融合方法:

      • 权重加权平均类(Weighted averaging)

        • 如 Fisher-Merging、RegMean

        • 使用 Fisher 信息矩阵 或内积矩阵 预计算加权系数。

      • 任务向量合成类(Task vector-based methods)

        • 如 Task Arithmetic 、Ties-Merging 、AdaMerging ;

        • 将任务向量加和而非权重加和;

        • Ties-Merging 解决干扰问题,AdaMerging 自适应调整系数。

      • 预处理技术类(Pre-processing)

        • 如 DARE

        • 通过稀疏和缩放任务向量来减少干扰

    • 尽管已有方法取得一定进展,但仍存在两大问题:

      • (1) 合并模型与原始模型/MTL 模型之间仍存在明显性能差距

      • (2) 性能提升依赖于数据或训练进行调参

  • 论文重新审视现有融合范式

    • 发现,现有方法的核心目标是:构造一个能统一处理所有任务的单一模型权重,形式如下:

    • 但这种策略存在问题:

      • 当任务数量较多或任务难度较大时,一个统一权重难以同时逼近所有任务模型的表现

      • 单一参数空间模拟多任务权重是一种次优解

  • ------>论文提出新的融合范式:首先提取一个统一主干模型权重,然后为每个任务构造一个轻量的任务特定模块,包括掩码和缩放器。

  • 基于上述范式,论文提出了 EMR-Merging(Elect, Mask & Rescale-Merging) 方法。

2 方法

3 理论分析

相关推荐
Rocky Ding*16 小时前
深入浅出完整解析AIGC时代中GAN(Generative Adversarial Network)系列模型核心基础知识(下篇)
论文阅读·人工智能·深度学习·机器学习·aigc·gan·ai-native
chnyi6_ya2 天前
论文阅读笔记|Wan: Open and Advanced Large-Scale Video Generative Models
论文阅读·笔记
chnyi6_ya2 天前
论文阅读:CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
论文阅读·深度学习·transformer
大模型最新论文速读3 天前
SkillOpt:把 skill 文档当成模型权重来训练
论文阅读·人工智能·深度学习·机器学习·自然语言处理
Cloud_Shy6183 天前
解读《Effective Python 3rd Edition》:从练气到老魔(第一章 Item 4 - 6)
android·数据库·论文阅读·python
Rocky Ding*3 天前
一文读懂HiDream-I1稀疏 DiT 图像生成基础模型
论文阅读·人工智能·深度学习·机器学习·ai作画·aigc·ai-native
锅挤4 天前
来一篇儿:《anish into Thin Air: Cross-prompt Universal Adversarial Attacks for SAM2》
论文阅读
大模型最新论文速读4 天前
05-29 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
森诺Alyson4 天前
前沿技术借鉴研讨-2026.5.28(眼动数据预测抑郁&自杀倾向)
论文阅读·人工智能·深度学习·分类·论文笔记
凌晨一点的秃头猪5 天前
GR2(Generative Reasoning Reranker,生成式推理重排器)论文阅读
论文阅读