On the Risk of Misinformation Pollution with Large Language Models
http://arxiv.org/abs/2305.13661
EMNLP 2023
先看overview,大致猜测文章的核心思想。模型生成的错误信息(其中包含恶意用户借助LLM和LLM的幻觉生成的故意的虚假信息污染)对语料库污染的威胁。恶意用户让LLM生成虚假信息来混淆视听;普通用户可能遇到LLM无意的幻觉输出,两种信息同时可能对语料库进行污染,这就导致了对一些QA型模型的误导,输出的是被误导的答案。
摘要
调查了现代大型语言模型 (LLMs) 的潜在滥用来生成听起来可信的错误信息,以及它对信息密集型应用,特别是开放域问答 (ODQA) 系统的后续影响。我们建立了一个威胁模型并模拟潜在的无意和有意滥用场景,以评估 LLMs程度上可用于产生错误信息。我们的研究表明,LLMs 可以作为有效的错误信息制造者,导致 ODQA 系统的性能显着下降(高达 87%)。此外,我们揭示了与说服人类和机器相关的属性差异,这为当前以人为中心的打击错误信息的方法带来了障碍。为了减轻 LLM 生成的错误信息造成的危害,我们提出了三种防御策略:错误信息检测、警惕提示和阅读器集合。这些方法已显示出可喜的结果,尽管存在一定的相关成本。最后,我们讨论了使用 LLMs 作为自动错误信息生成器的实用性,并提供了相关资源和代码,以促进该领域的未来研究。
用LLM生成错误信息
错误信息的产生是一个广泛而多样的研究主题。因此,在本文中,我们专注于以下特定场景:恶意行为者使用以 表示 𝒢 的错误信息生成器,试图伪造一篇虚假文章 P′ 来回答特定的目标问题 Q (例如,"谁赢得了 2020 年美国总统大选?)在 LLMs,这篇捏造的文章 P′ 可能是一篇伪造的新闻,错误地将特朗普报道为获胜者。
直接使用GPT3.5作为错误信息生成器
内容略,很容易实现
生成错误信息的设置
零样本提示错误信息生成器(GPT3.5),提示词由说明部分P_INSTR和目标文本P_TGT两部分组成
GENREAD方法
直接提示 GPT-3.5 生成非常适合回答给定问题的文档。在此上下文中, pinstr 被框定为"生成背景文档以回答以下问题:",而 ptgt 仅包含问题。LLMs 应生成事实内容来回答该问题。然而,在实践中,他们可能容易产生幻觉,从而导致创作出偏离现实的内容。此设置反映了 LLM 的幻觉无意中引入了错误信息的情况。
一句话:有一个目标文本(只有目标问题),让3.5生成相关的背景,事实证明很容易出现幻觉。
CTRLGEN方法
在这个设置中,我们还提示 LLMs 生成一个上下文段落来回答给定的问题。但是,我们还输入了一个预先确定的非事实意见 。在此设置中, pinstr 为:"Generate a background document in support of the given opinion to the question.",同时 ptgt 包含目标问题和非事实事实或观点。通过这种方式,我们打算模拟现实世界的虚假信息和宣传制作过程,其中恶意行为者心中有一些预先确定的捏造事实(例如,特朗普赢得了 2020 年总统大选),并试图生成一篇反映事实的文章(例如,报道特朗普获胜的假新闻)。
一句话:GENREAD方法基础上,目标文本包含了目标问题和目标的假答案或假观点,让3.5生成相关文档。因为有目标的假答案,那么这就是生成假信息
REVISE方法
在此设置中,我们为 LLMs提供了人工书写的事实性文章以用作参考。然后,我们提示 LLM 修改文章以注入预定的非事实事实或观点。我们设置为 pinstr :"鉴于以下段落,修改尽可能少的细节,使其支持对问题的给定观点。 ptgt 然后是与目标问题相关的真实段落,以及问题和预先确定的观点。
一句话:已经有真实的背景文档,文档里面包含了目标问题的真实答案,让3.5依据目标答案尽可能少地修改原文,也是生成假信息。
REIT方法
前面的设置都旨在生成对人类来说看起来真实的文章。但是,在某些情况下,恶意行为者旨在生成错误信息以破坏下游模型 ,例如 QA 系统。在这些情况下,生成的文章不一定非得是真实的,只要它可以有效地操纵模型(例如,改变 QA 系统的输出)。我们通过设置为 pinstr :"给定问题和预定义的响应,以十种不同的方式重新表述响应"来模拟这种类型的误用。在这种情况下, ptgt 包括目标问题和预先确定的错误信息。
一句话:不从可读性上生成假信息(迷惑人的判断),直接针对下游任务生成错误信息。
用错误信息污染ODQA
ODQA 系统在检索器-阅读器模型上运行,该模型涉及首先从大型证据语料库中识别相关文件,然后根据这些文件预测答案。(谁家小RAG)
引入了错误信息污染的概念,其中 LLM 生成的错误信息被故意注入到 ODQA 模型使用的语料库中。这反映了 LLM 生成的内容填充下游应用程序使用的 Web 数据的增长趋势。我们的目标是评估错误信息污染对各种 ODQA 模型的影响,特别关注这种污染是否会影响这些 QA 系统,从而根据潜在恶意行为者的意图生成错误的答案。(这不就是PoisonedRAG方法的来源吗?)
数据集:NQ-1500,CovidNews
ODQA系统:检索器选用BM25和DPR([论文精读]Dense Passage Retrieval for Open-Domain Question Answering-CSDN博客);阅读器选用Fusion-in-Decoder,FiD和GPT3.5
对 NQ-1500 和 CovidNews 的语料库进行错误信息污染。对于每个问题 ,我们都会生成一个假文档,在前文中介绍的每个设置下分别注入相应的自然语料库。然后,我们在干净和污染语料库下评估 ODQA,使用标准精确匹配 (EM) 来衡量 QA 绩效。
在两种设置下评估不同 ODQA 系统的性能:一种使用未受污染的语料库 (Clean),另一种使用受错误信息污染的语料库,该语料库使用不同的错误信息生成方法 (CtrlGen、Revise、Reit、GenRead) 进行操作。我们在表 2 中展示了 QA 模型的性能,其中我们为每个阅读器配置了固定数量的检索到的上下文段落
四个发现:
- 错误信息对ODQA系统构成重大威胁
- 重申错误信息策略REIT更有效影响系统感知
- LLM生成的错误信息很可能被BM25和DPR检索到
- 没有可靠支持证据的问题更容易被操纵
防御策略
检测方法
最初的策略需要在 QA 系统中加入一个错误信息检测器,该检测器能够区分模型生成的内容和人工编写的内容。为了测试这种方法,我们采用了基于 RoBERTa 的分类器,专门针对这个二元分类任务进行了微调。为了获取训练和测试数据,我们利用了 NQ-1500 DPR 检索结果,随机划分前 80% 用于训练,保留剩余的 20% 用于测试。对于每个查询,我们使用了前 10 个上下文段落,总计 12000 个训练实例和 3000 个测试实例。训练上述检测器假定域内 NQ-1500 数据的可访问性。认识到域内训练数据的实际局限性,我们还根据维基百科主题整合了现有的 GPT3 完成数据集来训练域外错误信息检测器。
一句话:微调二分类分类器
警惕提示
目标是调查是否可以扩展此功能以遵循旨在逃避错误信息的指令。我们的实验设计使用 GPT-3.5 作为阅读器,采用 QA 提示,其中包括对错误信息的额外警告。例如,给读者的指示可以这样写:"利用下面的段落来简明扼要地回答后面的问题。请注意,这些段落的一小部分可能是为了误导你。
一句话:prompt里面说明了有错误信息。
阅读器集成
传统上,在 ODQA 中,所有检索到的上下文段落在传递给阅读器之前都会被连接起来 。这种方法可能会导致模型因存在错误信息而分心。作为对此,我们提出了一种"分而治之"技术。首先,我们根据上下文段落与问题的相关性将它们分成几 k 组。然后,读者使用每组段落来生成答案。随后,我们对生成的 k 候选人响应 a1,a2,...,ak 应用多数投票,以使用公式 计算已投票的答案 av 。通过这种投票策略,我们的目标是通过限制个人信息来源对答案预测的影响,最大限度地减少错误信息的影响。(谁家小RAG+决策树)
增大阅读器阅读的文本数量是否是一个好方法?
直观的思路是有错误就有错误,多来点正常的文本稀释一下可能会缓和攻击结果
实际上结果表明,增加上下文大小对减轻错误信息引起的性能下降的影响很小,甚至适得其反。所以通过增加上下文大小来 "稀释 "错误信息的简单策略并不是防御错误信息污染的有效方法。
防御总结
使用域内检测训练和通过投票机制让多个阅读器预测答案效果挺好,但是带来的开支提高并没有深入探索。
总结展望
评估了利用语言模型模型 (LLMs) 自动生成错误信息的实用性,并研究了它们对知识密集型应用程序的潜在影响。通过模拟行为者故意将虚假信息引入问答系统的知识源的场景,我们发现机器极易受到合成错误信息的影响,从而导致其性能显着下降。我们进一步观察到,当暴露于精心制作的谎言中时,机器的性能会进一步恶化。为了应对这些风险,我们提出了三种部分解决方案,作为减轻 LLM,我们鼓励对这个问题进行进一步研究。
我们未来扩展这项工作的研究方向可以采取三种路径。首先,虽然到目前为止我们只说明了 ODQA 系统中 LLMs,但这种威胁模型可用于评估更广泛的应用程序的风险。其次,LLMs制造更多经过计算的错误信息形式,例如恶作剧、谣言或宣传虚假信息,因此需要单独的调查路线。最后,需要进一步研究开发具有成本效益且强大的 QA 系统,以有效抵抗错误信息。