预防GPT-3和其他复杂语言模型中的“幻觉”

标题：预防GPT-3和其他复杂语言模型中的"幻觉"

正文：

"假新闻"的一个显著特征是它经常在事实正确信息的环境中呈现虚假信息，通过一种文学渗透的方式，使不真实的数据获得感知权威，这是半真半假力量令人担忧的展示。

像GPT-3这样复杂的生成自然语言处理(NLP)模型也倾向于"幻觉"这种欺骗性数据。部分原因在于，语言模型需要能够重写和总结长篇且常常错综复杂的文本，而没有能够定义、封装和"密封"事件和事实的架构约束，以保护它们免受语义重构过程的影响。

因此，对于NLP模型来说，事实并非神圣不可侵犯；在复杂语法或深奥的源材料使离散实体与语言结构难以分离的情况下，它们很容易被当作"语义乐高积木"来处理。

观察发现，复杂的语言模型如GPT-3可能会被曲折表达的源材料所迷惑。来源：使用深度强化学习进行释义生成

这个问题从基于文本的机器学习蔓延到计算机视觉研究，特别是在利用语义区分来识别或描述对象的领域。

"幻觉"和"不准确"的美容性重新解释也影响计算机视觉研究。

在GPT-3的情况下，当模型对已经回答过的问题反复提问时，它可能会感到沮丧。在最好的情况下，它会承认失败：

我最近对GPT-3的基本达芬奇引擎进行的一项实验。模型在第一次尝试时得到了正确的答案，但在第二次被问及同样的问题时感到困惑。由于它保留了之前答案的短期记忆，并将重复的问题视为对该答案的拒绝，因此它承认失败。来源：https://www.scalr.ai/post/business-applications-for-gpt-3

达芬奇和达芬奇指导(测试版)在这方面比其他通过API可用的GPT-3模型做得更好。在这里，Curie模型给出了错误的答案，而Babbage模型在同样错误的答案上自信地扩展：

爱因斯坦从未说过的话

当向GPT-3达芬奇指导引擎(目前似乎是最有能力的)征求爱因斯坦的名言"上帝不与宇宙掷骰子"时，达芬奇指导未能找到这句名言，而是发明了一句非名言，并在类似的查询中继续"幻觉"出另外三句相对可信且完全不存在的名言(无论是爱因斯坦还是其他人的)：

GPT-3产生了四句爱因斯坦的名言，但在全文互联网搜索中没有任何结果，尽管其中一些触发了爱因斯坦关于"想象力"的其他(真实)名言。

如果GPT-3在引用名言时一直出错，那么程序化地排除这些幻觉会更容易。然而，名言越分散和著名，GPT-3就越有可能正确地引用名言：

GPT-3显然在名言在贡献数据中表现良好时能够找到正确的名言。

第二个问题可能出现在GPT-3的会话历史数据渗入新问题时：

爱因斯坦可能会对这句名言归因于他感到震惊。这句名言似乎是对温斯顿·丘吉尔名言的荒谬"幻觉"。GPT-3会话中的上一个问题是关于丘吉尔(而不是爱因斯坦)，GPT-3似乎错误地使用了这个会话令牌来提供答案。

经济地解决"幻觉"问题

"幻觉"是采用复杂NLP模型作为研究工具的一个显著障碍------尤其是当这些引擎的输出高度抽象于形成它的源材料时，建立名言和事实的真实性变得困难。

因此，NLP当前的一个普遍研究挑战是建立一种方法来识别幻觉文本，而无需想象全新的NLP模型，这些模型将事实作为离散实体进行整合、定义和验证(这是许多更广泛的计算机研究领域的长期、独立目标)。

识别和生成幻觉内容

卡内基梅隆大学和Facebook AI研究之间的一项新合作提供了一种解决幻觉问题的新方法，通过制定一种方法来识别幻觉输出，并使用合成幻觉文本创建一个数据集，该数据集可以作为未来过滤器和机制的基线，这些过滤器可能会成为NLP架构的核心部分。

来源：https://arxiv.org/pdf/2011.02593.pdf

在上图中，源材料已经按单词进行了分割，其中"0"标签分配给正确的单词，"1"标签分配给幻觉单词。下面我们看到一个与输入信息相关但被非真实数据增强的幻觉输出的例子。

该系统使用了一个预训练的去噪自动编码器，能够将一个幻觉字符串映射回产生其损坏版本的原始文本(类似于我上面的例子，其中互联网搜索揭示了虚假名言的来源，但具有程序化和自动化的语义方法)。具体来说，Facebook的BART自动编码器模型被用来产生损坏的句子。

标签分配。

将幻觉映射回源的过程，这在普通的高级NLP模型中是不可能的，允许映射"编辑距离"，并促进算法方法来识别幻觉内容。

研究人员发现，即使系统在训练期间没有访问到参考材料，它也能很好地推广，这表明概念模型是健全且广泛可复制的。

防止过度拟合

为了避免过度拟合并达到广泛可部署的架构，研究人员随机从过程中删除令牌，并使用释义和其他噪声函数。

机器翻译(MT)也是这个混淆过程的一部分，因为跨语言翻译文本很可能会强有力地保留意义，并进一步防止过度拟合。因此，该项目通过双语发言人在手动注释层中翻译和识别幻觉。

该倡议在许多标准部门测试中取得了新的最佳结果，并且是第一个在使用超过1000万个令牌的数据时取得可接受结果的项目。

该项目的代码，题为"检测条件神经序列生成中的幻觉内容"，已在GitHub上发布，允许用户使用BART从任何文本语料库生成他们自己的合成数据。还提供了生成幻觉检测模型的后续步骤。