【Arxiv 大模型最新进展】北大 Parenting 方法登场：参数魔法解锁检索增强语言模型新高度！

【Arxiv 大模型最新进展】北大 Parenting 方法登场：参数魔法解锁检索增强语言模型新高度！

🌟 嗨，你好，我是青松！

🌈 自小刺头深草里，而今渐觉出蓬蒿。

NLP Github 项目推荐：

【AI 藏经阁】：https://gitee.com/fasterai/ai-e-book

介绍：该仓库主要分享了数百本 AI 领域电子书
【AI 算法面经】：fasterai/nlp-interview-handbook#面经

介绍：该仓库一网打尽互联网大厂NLP算法面经，算法求职必备神器
【大模型（LLMs）面试笔记】：https://gitee.com/fasterai/nlp-interview-handbook

介绍：该仓库汇总了 NLP 算法工程师高频面题，适合大模型初学者和正在准备面试的小伙伴希望能帮助各位同学缩短面试准备时间，不错过金三银四涨薪窗口，迅速收获心仪的Offer 🎉🎉🎉

文章目录

[Parenting: Optimizing Knowledge Selection of Retrieval-Augmented Language Models with Parameter Decoupling and Tailored Tuning](#Parenting: Optimizing Knowledge Selection of Retrieval-Augmented Language Models with Parameter Decoupling and Tailored Tuning)
- 方法详解

Parenting: Optimizing Knowledge Selection of Retrieval-Augmented Language Models with Parameter Decoupling and Tailored Tuning

作者：Yongxin Xu, Ruizhe Zhang, Xinke Jiang, Yujie Feng, Yuzhen Xiao, Xinyu Ma, Runchuan Zhu, Xu Chu, Junfeng Zhao, Yasha Wang 等

单位： Peking University, The Hong Kong Polytechnic University 等

下图给出此文的整体逻辑框架。首先，对文章进行一句话总结，然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力，以便读者快速了解文章脉络。

方法详解

本文研究的是如何优化检索增强语言模型（RALMs）的知识选择，平衡模型的遵从性和鲁棒性 。现有方法在平衡RALMs的遵从性和鲁棒性方面存在困难，难以有效整合外部知识与内部记忆，且容易受到检索噪声影响。受人类认知过程启发，本文提出了Parenting方法，通过参数解耦和定制调优策略，提升RALMs在不同检索上下文中的性能。

具体地，Parenting方法分为两个主要部分，参数解耦和定制调优，以下是详细介绍。

参数解耦

如下图所示，参数单元可分为两大类：

相交参数单元主要提升模型感知和分析上下文的能力，可同时增强模型的遵从性和鲁棒性。
独占参数单元：

遵从性独占参数单元主要提升模型通过复制和总结上下文信息来解决问题的能力，对遵从性更重要；
鲁棒性独占参数单元主要提升模型通过检索内部记忆解决问题的能力，对鲁棒性更重要。

具体参数解耦方法如下：

数据集构建
- 遵从性数据集：包含与模型内部知识相冲突但与正确答案吻合的知识文档以及对应的问题，用于增强模型对外部知识的遵从性。
- 鲁棒性数据集：包含与问题无关的噪声文档以及对应的问题，用于提升模型在面对无关信息时的鲁棒性。
关键参数挖掘
- 正向激活概率计算：对于来自特定数据集的输入，计算不同输入下FFN层神经元的激活概率。
- 基于梯度的敏感性和不确定性计算：计算参数的梯度和权重的乘积来量化对训练损失的敏感性，但由于训练过程的复杂动态，该指标方差较高，因此进行平滑处理和不确定性量化得到敏感性分数和不确定性分数。
- 重要性分数计算和聚合：以前向传播得到的激活概率作为层特定线索，结合平滑后的敏感性和不确定性，计算每个参数在遵从性或鲁棒性方面的最终重要性分数。
参数单元识别

对遵从性和鲁棒性的重要性分数进行标准化，根据分数识别相交和独占参数单元：
- 相交参数单元：对于遵从性和鲁棒性标准化分数均大于0的参数单元。
- 遵从性特定单元：遵从性标准化分数大于0且鲁棒性标准化分数小于0的参数单元。
- 鲁棒性特定单元：鲁棒性标准化分数大于0且遵从性标准化分数小于0的参数单元。

定制调优

根据参数单元的类型，设计特定的微调策略：

交叉参数单元 ：通过设计文档提取任务 ，同时优化交叉参数单元的遵从性和鲁棒性。

基于 SQuAD 2.0 数据集，对于每个问题，收集三种类型的文档：包含问题答案的相关文档、同一主题的噪声文档以及来自不同主题的噪声文档，以此模拟各种检索上下文场景。

训练时，冻结其余参数单元，结合遵从性数据集和鲁棒性数据集的损失，计算总损失如下：

L c x = δ 1 ( γ a × L a + γ r × L r ) + ( 1 − δ 1 ) L c \mathcal{L}{c x}=\delta{1}\left(\gamma_{a} × \mathcal{L}{a}+\gamma{r} × \mathcal{L}{r}\right)+\left(1-\delta{1}\right) \mathcal{L}_{c} Lcx=δ1(γa×La+γr×Lr)+(1−δ1)Lc

，其中 L a \mathcal{L}{a} La是与遵从性数据集的交叉熵损失， L r \mathcal{L}{r} Lr是与鲁棒性数据集的交叉熵损失， L c \mathcal{L}{c} Lc是文档提取数据集上的交叉熵损失， 0 < δ 1 < 1 0 < \delta{1} < 1 0<δ1<1是原始任务和新增任务之间的重新加权因子， γ a \gamma_{a} γa和 γ r \gamma_{r} γr 这两个参数分别用于衡量遵从性和鲁棒性相关的权重。

独占参数单元 ：为了避免独占参数单元受到冲突监督信号的污染，采用边界控制策略，在训练过程中隔离遵从性特定和鲁棒性特定的单元。
- 对于遵从性特定单元 ，冻结其余参数单元，为了确保它们不受与鲁棒性相关的梯度影响，不进行鲁棒性数据集的训练，损失函数为: L a x = δ 1 L a + ( 1 − δ 1 ) L c \mathcal{L}{a x}=\delta{1} \mathcal{L}{a}+\left(1-\delta{1}\right) \mathcal{L}_{c} Lax=δ1La+(1−δ1)Lc
- 对于鲁棒性特定单元 ，冻结其余参数单元，为了确保它们不受与遵从性相关的梯度影响，不进行遵从性数据集的训练，其损失函数为 L r x = δ 1 L r + ( 1 − δ 1 ) L c \mathcal{L}{r x}=\delta{1} \mathcal{L}{r}+\left(1-\delta{1}\right) \mathcal{L}_{c} Lrx=δ1Lr+(1−δ1)Lc。
此外，保持其余参数单元的初始权重，以防止与预训练权重产生偏差，保留LLMs的其他能力。

实验结果

在不同RAG任务上的表现如表1所示，表明本方法在遵从性和鲁棒性方面均优于先前方法，实现了更平衡的改进。

可视化 LLaMA2 - 7B - Chat 中遵从性和鲁棒性的参数单元重要性分布如下图所示。

可以观察到对遵从性和鲁棒性都至关重要的相交参数单元（紫色框），以及遵从性特定单元（红色框）和鲁棒性特定单元（蓝色框）。遵从性特定单元主要位于中间和中上层，与先前的重要作用相关研究结果一致；鲁棒性特定单元主要位于上层，少数在中间层，这与内部事实知识通常在 LLMs 较高层编码的研究结果相符；相交参数单元主要位于中间到中下层。

原文链接:https://arxiv.org/pdf/2410.10360
撰稿：董雪梅