【Arxiv 大模型最新进展】北大 Parenting 方法登场:参数魔法解锁检索增强语言模型新高度!

【Arxiv 大模型最新进展】北大 Parenting 方法登场:参数魔法解锁检索增强语言模型新高度!


🌟 嗨,你好,我是 青松 !

🌈 自小刺头深草里,而今渐觉出蓬蒿。


NLP Github 项目推荐:


文章目录

  • [Parenting: Optimizing Knowledge Selection of Retrieval-Augmented Language Models with Parameter Decoupling and Tailored Tuning](#Parenting: Optimizing Knowledge Selection of Retrieval-Augmented Language Models with Parameter Decoupling and Tailored Tuning)

Parenting: Optimizing Knowledge Selection of Retrieval-Augmented Language Models with Parameter Decoupling and Tailored Tuning

作者Yongxin Xu, Ruizhe Zhang, Xinke Jiang, Yujie Feng, Yuzhen Xiao, Xinyu Ma, Runchuan Zhu, Xu Chu, Junfeng Zhao, Yasha Wang

单位Peking University, The Hong Kong Polytechnic University

下图给出此文的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

方法详解

本文研究的是如何优化检索增强语言模型(RALMs)的知识选择,平衡模型的遵从性和鲁棒性 。现有方法在平衡RALMs的遵从性和鲁棒性方面存在困难,难以有效整合外部知识与内部记忆,且容易受到检索噪声影响。受人类认知过程启发,本文提出了Parenting方法,通过参数解耦和定制调优策略,提升RALMs在不同检索上下文中的性能。

具体地,Parenting方法分为两个主要部分,参数解耦和定制调优,以下是详细介绍。

参数解耦

如下图所示,参数单元可分为两大类:

  1. 相交参数单元主要提升模型感知和分析上下文的能力,可同时增强模型的遵从性和鲁棒性。

  2. 独占参数单元:

  • 遵从性独占参数单元主要提升模型通过复制和总结上下文信息来解决问题的能力,对遵从性更重要;
  • 鲁棒性独占参数单元主要提升模型通过检索内部记忆解决问题的能力,对鲁棒性更重要。

具体参数解耦方法如下:

  1. 数据集构建

    • 遵从性数据集:包含与模型内部知识相冲突但与正确答案吻合的知识文档以及对应的问题,用于增强模型对外部知识的遵从性。
    • 鲁棒性数据集:包含与问题无关的噪声文档以及对应的问题,用于提升模型在面对无关信息时的鲁棒性。
  2. 关键参数挖掘

    • 正向激活概率计算:对于来自特定数据集的输入,计算不同输入下FFN层神经元的激活概率。

    • 基于梯度的敏感性和不确定性计算:计算参数的梯度和权重的乘积来量化对训练损失的敏感性,但由于训练过程的复杂动态,该指标方差较高,因此进行平滑处理和不确定性量化得到敏感性分数和不确定性分数。

    • 重要性分数计算和聚合:以前向传播得到的激活概率作为层特定线索,结合平滑后的敏感性和不确定性,计算每个参数在遵从性或鲁棒性方面的最终重要性分数。

  3. 参数单元识别

    对遵从性和鲁棒性的重要性分数进行标准化,根据分数识别相交和独占参数单元:

    • 相交参数单元:对于遵从性和鲁棒性标准化分数均大于0的参数单元。
    • 遵从性特定单元:遵从性标准化分数大于0且鲁棒性标准化分数小于0的参数单元。
    • 鲁棒性特定单元:鲁棒性标准化分数大于0且遵从性标准化分数小于0的参数单元。

定制调优

根据参数单元的类型,设计特定的微调策略:

  1. 交叉参数单元 :通过设计文档提取任务 ,同时优化交叉参数单元的遵从性和鲁棒性。

    基于 SQuAD 2.0 数据集,对于每个问题,收集三种类型的文档:包含问题答案的相关文档、同一主题的噪声文档以及来自不同主题的噪声文档,以此模拟各种检索上下文场景。

    训练时,冻结其余参数单元,结合遵从性数据集和鲁棒性数据集的损失,计算总损失如下:

L c x = δ 1 ( γ a × L a + γ r × L r ) + ( 1 − δ 1 ) L c \mathcal{L}{c x}=\delta{1}\left(\gamma_{a} × \mathcal{L}{a}+\gamma{r} × \mathcal{L}{r}\right)+\left(1-\delta{1}\right) \mathcal{L}_{c} Lcx=δ1(γa×La+γr×Lr)+(1−δ1)Lc

​ ,其中 L a \mathcal{L}{a} La是与遵从性数据集的交叉熵损失, L r \mathcal{L}{r} Lr是与鲁棒性数据集的交叉熵损失, L c \mathcal{L}{c} Lc是文档提取数据集上的 交叉熵损失, 0 < δ 1 < 1 0 < \delta{1} < 1 0<δ1<1是原始任务和新增任务之间的重新加权因子, γ a \gamma_{a} γa和 γ r \gamma_{r} γr 这两个参数分别用于衡量遵 从性和鲁棒性相关的权重。

  1. 独占参数单元 :为了避免独占参数单元受到冲突监督信号的污染,采用边界控制策略,在训练过程中隔离遵从性特定和鲁棒性特定的单元。

    • 对于遵从性特定单元 ,冻结其余参数单元,为了确保它们不受与鲁棒性相关的梯度影响,不进行鲁棒性数据集的训练,损失函数为: L a x = δ 1 L a + ( 1 − δ 1 ) L c \mathcal{L}{a x}=\delta{1} \mathcal{L}{a}+\left(1-\delta{1}\right) \mathcal{L}_{c} Lax=δ1La+(1−δ1)Lc

    • 对于鲁棒性特定单元 ,冻结其余参数单元,为了确保它们不受与遵从性相关的梯度影响,不进行遵从性数据集的训练,其损失函数为 L r x = δ 1 L r + ( 1 − δ 1 ) L c \mathcal{L}{r x}=\delta{1} \mathcal{L}{r}+\left(1-\delta{1}\right) \mathcal{L}_{c} Lrx=δ1Lr+(1−δ1)Lc。

    此外,保持其余参数单元的初始权重,以防止与预训练权重产生偏差,保留LLMs的其他能力。

实验结果

在不同RAG任务上的表现如表1所示,表明本方法在遵从性和鲁棒性方面均优于先前方法,实现了更平衡的改进。

可视化 LLaMA2 - 7B - Chat 中遵从性和鲁棒性的参数单元重要性分布如下图所示。

可以观察到对遵从性和鲁棒性都至关重要的相交参数单元(紫色框),以及遵从性特定单元(红色框)和鲁棒性特定单元(蓝色框)。遵从性特定单元主要位于中间和中上层,与先前的重要作用相关研究结果一致;鲁棒性特定单元主要位于上层,少数在中间层,这与内部事实知识通常在 LLMs 较高层编码的研究结果相符;相交参数单元主要位于中间到中下层。


相关推荐
春末的南方城市11 分钟前
谷歌推出PaliGemma 2 mix:用于多任务的视觉语言模型,开箱即用。
人工智能·语言模型·自然语言处理
code_talking17 分钟前
Python学习第十七天之PyTorch保姆级安装
人工智能·pytorch·python·conda
微刻时光22 分钟前
影刀RPA + AI大语言模型:打造智能自动化流程的超级引擎
人工智能·python·语言模型·rpa·影刀rpa·影刀证书·影刀实战
光锥智能37 分钟前
荣耀AI PC 2.0战略发布,推出新品笔电荣耀MagicBook Pro 14
人工智能
大力财经1 小时前
DeepSeek为云厂商带来新机遇,东吴证券看好AI带动百度智能云增长
人工智能·百度
游王子1 小时前
OpenCV(10):视频目标跟踪、视频背景减除
人工智能·opencv·目标跟踪
蜂耘1 小时前
ChatGPT入驻Safari,AI搜索时代加速到来
人工智能·chatgpt·safari
ssxueyi1 小时前
什么是大语言模型
人工智能·语言模型·自然语言处理·openai·deepseek
m0_748038561 小时前
NLP09-加强1-对比SVM
人工智能·python·机器学习·支持向量机·分类·nlp
liruiqiang051 小时前
线性模型 - 支持向量机
人工智能·算法·机器学习·支持向量机