在可能阻碍语言模型性能的各种问题和挑战中,幻觉往往位居榜首。当语言模型生成虚假、误导或无意义的信息时,就会出现幻觉。在检索增强生成 (RAG) 系统中,语言模型通过检索和整合外部信息来增强事实依据,这个问题得到了缓解,但并未完全消除。
在我们理解 RAG 文章系列的新一期中,我们将探讨幻觉问题,与独立语言模型相比,它们在 RAG 系统中的表现如何,最重要的是,如何解决这个具有挑战性的问题。
为什么 RAG 系统中的幻觉仍然会发生
正如本系列的开篇所讨论的,RAG 系统相较于传统语言模型的主要优势之一是能够通过检索和整合事实准确的信息来减少幻觉,但幻觉仍然可能由于多种原因而产生。事实上,幻觉仍然是 RAG 系统中最重大的挑战之一,尤其是那些检索精度有限或知识库质量不够高的方法。
RAG 系统中仍然可能出现幻觉的一个原因很简单:如果检索到的数据包含错误,则生成的响应也可能不正确或具有误导性。在依赖于知识库(通常是文档语料库,但有时也是结构化数据库)的 RAG 系统中,数据由人为输入、传感器收集等,因此条目包含错误或不准确的信息并不少见。当 RAG 的检索器优先考虑或误解这些"损坏的"数据条目或文档时,出现幻觉的风险就会增加。如果用户在 RAG 系统中查询与该人相关的人名,文档或数据库中错误输入的人名就足以触发"幻觉秀"......或者更糟的是,如果用户就是那个人!
当检索到的信息缺乏足够的细节或上下文细微差别(这些对于正确解读至关重要)时,就会出现另一个问题。例如,银行聊天机器人 RAG 系统背后的检索器可能会检索有关抵押贷款条件的信息来响应客户的查询。但是,如果客户是残疾人士或特殊身份,有资格享受额外福利,而检索器未能检索到这些特定信息,则生成的响应可能会错失客户的关键机会。这不仅会导致错误信息,还可能导致糟糕的用户体验,从而可能导致客户转向竞争对手。
无论哪种情况,生成器(RAG 系统内的语言模型)都会尝试根据不完整或误导性的数据构建响应,从而导致不可靠或不准确的输出。
缓解 RAG 系统中的幻觉
广义上讲,我们可以识别和分类三种类型的策略或焦点来减轻 RAG 系统中的幻觉:数据、上下文以及检索器和生成器内的 AI 和推理过程。
数据相关的缓解策略
减少幻觉的关键在于确保检索器使用的知识库中包含高质量且经过精心整理的数据。如果检索到的文档包含错误、不精确的条目、过时的信息或偏见,生成器可能会给出误导性或不正确的响应。为了提高可靠性,可以采取的策略包括严格的数据管理、持续系统地更新知识库、自动化的事实核查方法以及过滤掉低质量或不相关的来源。
与环境相关的缓解策略
即使数据的质量和准确性已经得到提升,如果模型未能完全捕捉用户意图或检索所有相关信息,仍然可能出现幻觉。为了解决这个问题,专注于上下文改进的策略包括优化检索技术、使用查询扩展进行精细搜索、应用重排序模型优先选择与特定场景最相关的文档,以及采用先进的提示工程技术。这些策略可能有助于提高检索到的信息和上下文的相关性,从而使最终传递给生成器的提示能够提供坚实的上下文基础。
人工智能与推理过程相关的缓解策略
最后,即使拥有结构良好的上下文和高质量的数据,语言模型执行的推理过程仍然可能导致幻觉。为了应对这一最终挑战,常见的策略包括使用指令遵循数据集(旨在帮助语言模型理解和遵循明确指令的训练实例集合)对模型进行微调、结合逻辑推理和常识推理技术、利用事实核查 API 等外部验证工具,以及在 RAG 工作流中集成多步骤推理框架,以产生更连贯、更精确的响应。
减轻 | 主要焦点 | 关键策略与技巧 | 效益/成果 |
---|---|---|---|
数据 | 整理并维护高质量数据 | 严格管理、持续更新、自动核实事实、过滤低质量来源 | 减少因信息过时或不准确而导致的错误;提高事实依据 |
语境 | 捕捉用户意图并增强检索细节 | 优化检索方法、查询扩展、重新排序模型、高级提示工程 | 提高检索信息的相关性和完整性 |
人工智能与推理 | 完善模型决策和推理 | 使用指令数据集、逻辑和常识推理、多步骤框架、外部验证工具进行微调 | 减轻固有的模型幻觉,从而产生更连贯的反应 |
总结
幻觉是当今基于语言模型的人工智能系统面临的一个关键问题,RAG 系统尽管能够部分解决这一问题,却也不例外。本文探讨了 RAG 背景下的幻觉问题,重点阐述了在生成响应之前检索外部信息。