论文解读 | NeurIPS'24 IRCAN：通过识别和重新加权上下文感知神经元来减轻大语言模型生成中的知识冲突...

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

点击 阅读原文 观看作者讲解回放！

作者简介

史丹，天津大学博士生

内容简介

大语言模型（LLM）经过海量数据训练后编码了丰富的世界知识。最近的研究表明，当LLM面临其编码的参数知识和上下文中提供的知识之间存在矛盾（被称为知识冲突）时，可能会过度依赖其内在的参数知识，而不能充分重视上下文中引入的新知识。为了减轻该问题，本文提出了一个新颖的框架IRCAN，通过识别和重新加权上下文感知神经元，引导LLM根据上下文中提供的新知识生成对上下文更敏感的输出。具体而言，IRCAN首先利用基于积分梯度的上下文感知归因评分，识别出显著贡献于处理上下文的神经元。随后，通过重新加权来增强所识别的上下文感知神经元。在来自多个系列的模型和多种任务上进行的广泛实验表明，IRCAN不仅显著提升了LLM在知识冲突问题上的性能，还可以与现有方法无缝集成，取得了最先进的结果。

论文地址：https://arxiv.org/abs/2312.12853

代码链接：https://github.com/danshi777/IRCAN

Motivation

众所周知，大语言模型经过大量数据的训练，蕴含了丰富的知识。然而，由于信息/知识的快速发展以及训练数据中存在的噪音，LLM可能拥有不正确或过时的知识。在现实应用中，通常使用检索增强生成（RAG）等方法，将最新的知识或来自外部数据库的知识集成到输入的提示上下文中来缓解这个问题。这导致LLM在生成过程中依赖两种知识来源：一种是参数知识，即模型在预训练阶段获得并编码在其参数中的知识；另一种是上下文知识，即我们提供给模型的输入上下文中的信息。当这两种知识存在不一致或矛盾时，就会出现所谓的知识冲突问题。

以往的研究表明，当LLM面临参数知识与上下文知识之间的冲突时，它们可能会过度坚持现有的参数知识，而不能充分关注在上下文中引入的新知识。

例如，即便将"截至2023年，印度成为世界上人口最多的国家"这一信息作为上下文输入给Llama-2-7B，当被问及"世界上人口最多的国家是哪个"时，它仍然回答为"中国"。

作者猜想，是否类似于之前的知识神经元，在LLM中也存在专注于处理上下文的神经元呢？基于此假设，作者提出一个识别和重新加权上下文感知神经元的框架IRCAN，首先通过计算每个神经元的归因分数来衡量来识别负责处理上下文的神经元，称之为知识感知神经元，然后通过增加这些知识感知神经元的权重，使模型在生成过程中更加关注上下文，从而生成更忠诚于上下文的响应。

Methodology

具体而言，本方法首先通过一种基于梯度积分的上下文感知归因方法，计算每个神经元在感知上下文以预测答案方面的贡献分数。这些分数可用于评估哪些神经元在处理上下文中发挥着关键作用。与许多先前的研究相同，本文也关注第2个FFN层中的神经元。

作者将每个神经元要计算的归因分数记作，其中表示在模型的第层的位于第i个位置的神经元。首先，仅将问题作为输入，记录下此时模型中每个神经元的激活值，记作。接着，将上下文和问题一起输入给语言模型并记录此时新的神经元激活值，记作。然后，当输入为上下文和问题时，逐渐将神经元的激活值从改变为，观察输出正确答案的概率梯度的变化，计算归因分数为式(1)。直观上，通过对 α 从 0 变化到 1 时的梯度进行积分，累积了由上下文不存在到存在的激活值变化引起的输出概率变化。如果神经元对上下文有很强的感知和处理能力，那么梯度就会很大，从而产生很大的积分值。因此，归因分数可以衡量神经元在处理上下文方面的贡献程度。

在实际的实验中，作者采用黎曼逼近法来近似计算归因分数，如式(2)所示。具体做法是将减这个值分成m份，每次改变其中的m分之一，然后将这些变化累加起来。在实验中，m默认为20。

第二步，根据计算出的神经元归因分数，首先保留分数高于阈值t的神经元。然后，对于每个数据实例，选择具有最高归因分数的前z个神经元作为候选集。在实验中，t和z分别默认设置为 10% 和 20。最终，计算所有候选集中神经元的共现次数，并选择共现次数最多的前h个神经元作为上下文感知神经元。这些识别出的上下文感知神经元在所有数据实例之间共享。

最后，本文采用了一种简单而有效的办法来放大识别到的知识感知神经元的作用，即直接将这些神经元的权重扩大到原始权重的β倍。在实验中，选取的知识神经元的数量h以及增强的倍数β都是超参数。

Experiments

作者在两种不同类型的知识冲突任务上进行了实验：一是补全任务，涉及"MemoTrap"数据集，该任务要求模型在英文谚语的上下文中使用不同于其传统结尾词的其他词语来补全谚语；另一种则是多项选择任务，在 COSE_KRE 和 ECARE_KRE 数据集上进行了实验，在该任务中，预先指定一个错误答案为正确答案，然后让ChatGPT生成一个支持这个错误答案的解释，并将这个解释作为上下文，期望模型在被提问后，能根据这个解释回答指定的答案，而非它原本的答案。

作者采用accuracy作为主要指标来评估模型的性能。此外，还设计了一个作为参考的指标------称为"固执率"。该指标旨在评估模型是否倾向于固守其内在参数知识。较低的固执率意味着模型利用内部参数知识回答问题的比例越低，从而在一定程度上反映了模型对上下文知识的专注。

首先，在补全任务中，对比的baselines包括不做任何操作的原始模型，基于Probe的方法，以及一个强大的baseline CAD，它直接调整了输出概率，放大了使用上下文和不使用上下文时的概率差异，以此来使模型更加关注于上下文知识。实验结果表明，本文方法的性能达到了SOTA，尤其对于LLaMa-2-7B和LLaMa-3-8B，分别实现了129%和136%的显著ACC提升，SSR指标也明显下降。这证明了通过增加上下文感知神经元的权重，模型可以从依赖预先存储的参数知识转向利用上下文知识。此外，IRCAN和CAD技术能够产生叠加效应，结合CAD后性能进一步提升。

在多项选择任务中，除了前面提到的baseline，实验还增加了基于Prompt Engeering的baselines，包括三种明确指示模型在回答问题时更加关注上下文的方法和一种使用基于opinion的prompt的方法。结果显示，基于Prompt Engeering的方法并未带来一致的性能提升，甚至在某些模型上还导致了性能下降，但IRCAN在所有模型上都实现了稳定的性能提升，并且在结合CAD后，性能也进一步得到提高。

为了进一步验证IRCAN识别的神经元是否在处理上下文中发挥关键作用，作者进一步进行了消融实验，包括：擦除（将权重置为0）检测到的上下文感知神经元；随机增强或删除与 IRCAN 中实现的相同数量的神经元。结果显示，与 IRCAN 的结果相比，当上下文感知神经元被擦除时，准确率大幅下降。然而，无论是擦除还是增强随机神经元，性能都与原始模型相似。这表明本文检测到的上下文感知神经元在解决知识冲突方面发挥着关键作用，从而验证了它们在模型功能中的重要性。

本文还探究了增强倍数和增强神经元的数量这两个超参数对模型性能的影响。左图显示了在固定神经元数量的情况下，随着上下文感知神经元增强倍数的增加，模型性能在初期逐渐提升，凸显了IRCAN识别的神经元的关键作用。然后，与我们的直觉一致，超过一定的增强强度后性能开始下降。这种下降可能是由于神经元的过度增强导致模型直接崩溃，其输出完全不可用。右图也展示出了类似的结果，随着增强神经元数量的增加，模型性能也呈现出先上升后下降的趋势。

本文还对计算得到的归因分数较高的神经元进行了可视化，观察它们在模型层内部的分布情况。结果显示，大部分神经元集中在高层，也有部分位于中间层。这与以往的研究发现相吻合，即语言模型主要在高层编码高级语义知识。

由于IRCAN增强了某些神经元的权重，这可能会引发一个担忧，即这是否会损害模型的一般能力？为了探究这一点，作者在六个常用的基准上进行了测试，结果显示，与原始模型的性能相比，IRCAN只会导致轻微的性能振荡。这表明IRCAN 可以可靠地提高大语言模型解决知识冲突任务的能力，同时保持其出色的综合能力。

本期文章由陈研整理

往期精彩文章推荐

AAAI 2025预讲会28位讲者相聚｜28篇论文工作+2个团队专场，一起期待2025年的首场预讲会

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了2000多位海内外讲者，举办了逾700场活动，超800万人次观看。

我知道你

在看

提出观点，表达想法，欢迎

留言

点击 阅读原文 观看作者讲解回放！