LED-Merging: 无需训练的模型合并框架，兼顾LLM安全和性能！！

摘要：对预训练大型语言模型（LLMs）进行微调以适应特定任务，会带来巨大的计算和数据成本。虽然模型合并提供了一种无需训练的解决方案，用于整合多个特定任务的模型，但现有方法存在安全性与效用性之间的冲突，即增强通用能力会降低安全防护。我们发现了两个根本原因：由于简单的基于参数大小的选择，导致神经元误识别，以及在合并过程中不同任务的神经元相互干扰。为了解决这些挑战，我们提出了LEDMerging，这是一个三阶段框架，通过基于梯度的归因来定位特定任务的神经元，通过多模型重要性融合动态选择关键神经元，并通过参数隔离来分离冲突的更新。在Llama-3-8B、Mistral-7B和Llama2-13B上的广泛实验表明，LEDMerging降低了有害响应率（例如，在HarmBench上Llama-3-8BInstruct降低了31.4%），同时保持了95%的效用性能（例如，在GSM8K上准确率为52.39%）。LEDMerging解决了安全性与效用性之间的冲突，并为构建可靠的多任务LLMs提供了一种轻量级、无需训练的范式。

一、背景动机

论文题目：LED-Merging: Mitigating Safety-Utility Conflicts in Model Merging with Location-Election-Disjoint

论文地址：https://arxiv.org/pdf/2502.16770

现有的模型合并方法存在安全性和功能性之间的冲突，即在提升模型的通用能力（如数学推理）时，可能会降低模型的安全保障能力。将安全对齐和数学特定的微调模型合并后，可能会得到一个在数学方面表现出色但安全性降低的模型。这种冲突的根源在于现有方法在选择神经元时存在缺陷，以及在合并过程中不同任务的神经元之间存在干扰。

基于上述问题，文章提出了LEDMerging，这是一个三阶段框架，通过基于梯度的归因来定位特定任务的神经元，通过多模型重要性融合动态选择关键神经元，并通过参数隔离来分离冲突的更新。

二、核心贡献

提出LED-Merging框架：LED-Merging 是一个三阶段的框架，包括定位（Location）、选举（Election）和分离（Disjoint）。该框架通过梯度归因来定位任务特定的神经元，通过多模型重要性融合动态选举关键神经元，并通过参数隔离来分离冲突的更新，从而解决了神经元误识别和干扰的问题。
无需训练的合并方法：LED-Merging无需对合并后的模型进行额外的训练，就能够缓解安全性和功能性之间的冲突，这在隐私敏感或资源受限的场景中具有重要意义。

三、实现方法

定位（Location）：通过计算每个神经元的重要性分数来识别基础模型和微调模型中的关键神经元。使用梯度归因分数来避免神经元误识别，选择重要性分数最高的神经元作为关键神经元子集。

选举（Election）：基于基础模型和微调模型的重要性分数，动态选择在两个模型中都具有高分数的神经元作为任务向量中的关键神经元。这确保了安全性和功能性在合并过程中的平衡表示。

分离（Disjoint）：通过集合差操作隔离冲突的权重更新，防止安全性和任务特定神经元之间的干扰，避免跨任务干扰。

合并：最终将经过定位、选举和分离处理后的任务向量合并到基础模型中，形成合并后的模型。

四、实验结论

安全性提升：LED-Merging在多个安全基准测试中表现出色，显著降低了有害响应率，例如在HarmBench上，与单独的代码模型相比，LED-Merging将Llama3-8B的有害响应率降低了75.9%。
功能性保持：在数学推理和代码生成等任务上，LED-Merging能够保持与专门模型相当的功能性性能。例如，在GSM8K上，LED-Merging保持了52.39%的准确率，与Ties-Merging相当，远高于Task Arithmetic。

跨架构鲁棒性：LED-Merging在不同模型架构（如Llama-2、Llama-3和Mistral）上均表现出一致的有效性，证明了其与不同架构设计的兼容性。
模型规模无关性：LED-Merging在不同规模的模型（从7B到13B参数）上均表现出稳定的性能，证明了其对模型规模的鲁棒性。

五、总结

文章提出了一种名为LED-Merging的模型合并框架，通过定位、选举和分离三个阶段，有效地解决了模型合并过程中出现的安全性和功能性之间的冲突问题。该方法无需额外训练，具有跨架构鲁棒性和模型规模无关性，能够在保持模型功能性的同时显著提升模型的安全性。