论文笔记:EMR-MERGING: Tuning-Free High-Performance Model Merging

2024 neurips

1 intro

  • 随着 HuggingFace、timm 和 torchvision 等开源仓库的发展,预训练与微调模型的数量激增 ,这导致模型部署的存储和成本负担加重

    • 多任务学习(MTL)通过联合训练多数据集来部分缓解上述问题,但它存在以下缺陷:
      • (i) 计算成本高;

      • (ii) 隐私数据限制导致数据不可获取

  • 因此,近年来出现了**模型融合(model merging)**方法,试图通过权重合并的方式绕过训练过程,减少计算与数据开销,具备重要的实际意义。

  • 一个简单的模型融合方法是对权重进行平均,但这往往会带来明显的性能下降

    • 为此,已有研究提出了三类主流融合方法:

      • 权重加权平均类(Weighted averaging)

        • 如 Fisher-Merging、RegMean

        • 使用 Fisher 信息矩阵 或内积矩阵 预计算加权系数。

      • 任务向量合成类(Task vector-based methods)

        • 如 Task Arithmetic 、Ties-Merging 、AdaMerging ;

        • 将任务向量加和而非权重加和;

        • Ties-Merging 解决干扰问题,AdaMerging 自适应调整系数。

      • 预处理技术类(Pre-processing)

        • 如 DARE

        • 通过稀疏和缩放任务向量来减少干扰

    • 尽管已有方法取得一定进展,但仍存在两大问题:

      • (1) 合并模型与原始模型/MTL 模型之间仍存在明显性能差距

      • (2) 性能提升依赖于数据或训练进行调参

  • 论文重新审视现有融合范式

    • 发现,现有方法的核心目标是:构造一个能统一处理所有任务的单一模型权重,形式如下:

    • 但这种策略存在问题:

      • 当任务数量较多或任务难度较大时,一个统一权重难以同时逼近所有任务模型的表现

      • 单一参数空间模拟多任务权重是一种次优解

  • ------>论文提出新的融合范式:首先提取一个统一主干模型权重,然后为每个任务构造一个轻量的任务特定模块,包括掩码和缩放器。

  • 基于上述范式,论文提出了 EMR-Merging(Elect, Mask & Rescale-Merging) 方法。

2 方法

3 理论分析

相关推荐
m0_650108241 天前
3D Gaussian Splatting:实时辐射场渲染的突破性方案
论文阅读·三维重建·3d高斯溅射·实时视角切换·自适应密度控制·可微光栅化器·灵活高斯基元
0x2112 天前
[论文阅读]AttnTrace: Attention-based Context Traceback for Long-Context LLMs
论文阅读
李加号pluuuus2 天前
【论文阅读】Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generatio
论文阅读
蓝海星梦2 天前
Chain‑of‑Thought 推理链评估全解析:从参考方法到无参考指标
论文阅读·人工智能·自然语言处理·cot
有Li2 天前
D-EDL:用于鲁棒医学分布外检测的差异化证据深度学习|文献速递-医疗影像分割与目标检测最新技术
论文阅读·文献·医学生
HollowKnightZ2 天前
论文阅读笔记:Class-Incremental Learning: A Survey
论文阅读·笔记
Eastmount2 天前
[论文阅读] (45)C&S24 AISL: 基于攻击意图驱动与序列学习方法的APT攻击检测
论文阅读·系统安全·溯源图·攻击意图·apt攻击检测
小明_GLC2 天前
ITransformer: Inverted Transformers Are Effective for Time Series Forecasting
论文阅读
依夏c3 天前
【论文笔记•(多智能体)】Ask Patients with Patience
论文阅读
明明真系叻3 天前
2025.12.21论文阅读
论文阅读·量子计算