【论文阅读】A Survey on Knowledge-Oriented Retrieval-Augmented Generation(1)

代码地址:GitHub - USTCAGI/CRAG-in-KDD-Cup2024


摘要

近年来,检索增强生成(Retrieval-Augmented Generation,RAG) 因其将大规模检索系统与生成模型相结合、提升自然语言理解与生成能力的潜力而受到广泛关注。RAG 利用外部知识源,如文档、数据库或结构化数据,来提升模型性能,从而生成更加准确、语境相关的输出内容。

本综述旨在全面梳理 RAG 的核心组成部分,包括其检索机制、生成过程以及二者的整合方式。我们探讨了 RAG 的关键特征,例如其利用动态外部知识增强生成模型的能力,以及在将检索信息与生成目标对齐过程中所面临的挑战。

我们还构建了一个分类体系,涵盖从基础的检索增强方法到融合多模态数据与推理能力的高级模型。此外,本文回顾了评估 RAG 系统常用的基准测试与数据集,并深入分析其在问答、文本摘要、信息检索等领域的应用。

最后,我们指出了当前 RAG 研究中的新兴方向与改进机遇,如提升检索效率、增强模型可解释性、面向特定领域的适配等。本文总结认为,RAG 有望在应对现实世界挑战方面发挥重要作用,并推动自然语言处理技术的进一步发展。

1 引言

检索增强生成(Retrieval-Augmented Generation,RAG) 是近年来兴起的一种关键方法,通过将信息检索与生成模型相结合,提升自然语言处理任务的表现。RAG 利用外部知识源,可生成更为准确且语境相关的输出,有效应对诸如问答、文本摘要和开放域对话等复杂任务。近年来,各类 RAG 方法层出不穷,从基础的检索增强模型发展到更高级的架构,如多跳推理和增强记忆技术。

这些发展凸显了 RAG 在将检索与生成动态融合为统一框架中所展现出的巨大潜力。RAG 模型在生成过程中引入文档、数据库或结构化数据等外部知识源,从而扩展了传统语言模型的能力。与单纯依赖预训练参数的传统模型不同,RAG 系统在生成时动态检索相关信息,因此能够输出更具知识性和上下文准确性的内容。这种方法弥补了传统语言模型无法访问实时或领域特定知识的不足,并缓解了处理生僻词或罕见实体的挑战。

例如,在问答任务中,RAG 模型通过从大型语料库中检索相关段落,以生成更为精准、信息更丰富的回答;而在文本摘要任务中,它们依靠外部文档来提供更具信息密度和全面性的摘要。RAG 的早期成功已在多个 NLP 应用中展现出显著优势,例如在开放域问答中,RAG 系统通过引入相关上下文,明显优于传统生成模型;在基于文档的摘要任务中,也能生成更好地反映原始材料细节的摘要内容。

RAG 的核心在于"以知识为中心"的方法,即将外部知识作为提升语言生成效果的关键因素。通过引入相关、实时且结构化的信息,RAG 模型能显著增强其生成语境准确且符合事实内容的能力。这种以知识为中心的视角解决了传统语言模型受限于训练数据、无法访问动态或专业知识的根本问题。外部知识的整合不仅使模型能检索并引入关键细节,还可在多个信息之间进行推理,生成更具深度和信息量的输出。这种知识增强趋势使模型能够处理更复杂的任务,如专业主题的理解、提升对话系统中的响应相关性,以及生成高质量、真实反映源材料本质的摘要。

尽管检索增强生成技术发展迅速,仍存在一些制约其潜力发挥的关键挑战。其一是知识选择问题 :模型必须从海量外部资源中有效筛选最相关的信息,而现实世界的知识库往往体量大、噪声多、类型多样,这一任务颇具挑战。其二是知识检索问题 :如何在生成时检索到合适的信息,并在效率与相关性之间取得平衡。目前的检索技术在应对专业性强或语境模糊的场景时,仍常常难以准确匹配查询与知识源。其三是增强的上下文内推理能力问题:模型不仅要检索相关知识,还需能将其整合并在上下文中合理推理,以保证输出的连贯性与准确性。

上述挑战说明了对 RAG 模型需要更深层次的理解和更先进方法的支持,因此有必要进行一次全面的综述,系统梳理当前的局限与未来的发展机遇。

本综述的主要目标是从"以知识为中心"的角度,对 RAG 进行系统性的回顾与总结。我们将聚焦于外部知识源在生成过程中的整合,回顾当前 RAG 模型、方法与技术的发展,涵盖一系列主流模型与其在检索与生成过程中的基本思路,深入探讨其如何应对知识选择、检索与上下文推理等关键挑战。

此外,我们将关注当前研究中的前沿趋势与潜在空白,尤其是如多模态知识整合与领域特定应用等尚待深入挖掘的方向。本综述的独特贡献在于从"知识中心化"的视角出发,构建了一个理解与推进 RAG 研究的统一框架,适用于关注 RAG 在自然语言处理任务中应用的研究者、从业人员与行业实践者。

随着该领域的持续快速发展,本综述既可作为研究的基础资源,也为未来研究提供方向指引,揭示当前挑战与创新机会。

本综述结构如下:

  • 第2节:背景------回顾 RAG 的基本概念和当前模型面临的关键挑战,为理解将外部知识引入语言生成奠定基础;

  • 第3节:RAG 总览------深入探讨其核心原理,包括知识的检索、整合与生成过程;

  • 第4节:RAG 的特征与挑战------扩展对知识选择、检索效率与上下文推理等复杂问题的讨论;

  • 第5节:基础与高级 RAG 方法------概述从传统检索增强模型到融合推理与记忆机制的多模态先进模型;

  • 第6节:RAG 评估------评审常用的评估基准与数据集,探讨当前评估方式与指标的优缺点;

  • 第7节:RAG 应用------展示其在多个实际场景中的关键应用;

  • 第8节:前景与未来方向------探讨前沿趋势及后续研究的重要方向;

  • 第9节:结语------总结主要发现,展望 RAG 在自然语言处理领域的未来影响。

2 相关工作

本节为理解检索增强生成(Retrieval-Augmented Generation,RAG)提供必要的背景知识。我们首先回顾 RAG 的起源,探讨其从正式提出到后续发展的演变过程。同时,还将综述当前已有的相关综述文献,指出其研究重点与局限性,从而明确本综述在当前研究图谱中的定位。

2.1 RAG 的起源

随着语言模型的发展,研究者开始探索通过引入检索机制来提升文本生成质量的可能性 [52, 244]。然而,在这一阶段,相关方法尚未被统一命名。直到 2020 年,Facebook 正式提出了 RAG 的概念,并将其成功应用于知识密集型任务中 [126]。RAG 通过检索机制将外部知识引入生成模型,有效提升了如问答与文本理解等任务的性能。同一时期,Google 提出的 REALM [81] 也采用了类似的检索增强策略。REALM 在预训练阶段引入隐式知识检索器,在开放域问答中取得了显著成果,并创下当时的最新性能记录。

自那以后,RAG 逐渐受到学界越来越多的关注。相比传统生成模型,RAG 具有显著优势,其"检索-生成"协同机制使模型能够在复杂推理任务中动态访问外部知识库,从而提升生成内容的信息量与准确性。这一范式标志着自然语言处理的重大转变------模型不再仅依赖内部参数,而是能够充分利用广泛的外部知识。如图 1 所示,自 2020 年起,早期研究逐步探索了 RAG 的不同方向,而在 2022 年末 ChatGPT 发布后,该领域进入爆发式增长阶段,出现了大量基于 RAG 的研究,致力于增强大型语言模型。这些持续的技术进展正不断塑造现代自然语言处理的研究格局。

2.2 相关综述

随着生成式人工智能,特别是 RAG 技术的快速发展,已有多个综述相继发表。然而,这些综述通常聚焦于 RAG 的某一特定方面,要么仅针对其某一基础构件展开分析,要么在有限的应用场景下对其增强方法作简要概述。大多数现有综述主要聚焦于文本生成领域,并依赖于大型语言模型的支持,而较少涉及其他模态。

例如,Li 等人 [131] 的综述提供了 RAG 的基础概述,并围绕文本生成任务中的应用进行了探讨;Gao、Fan 等人 [63, 73, 94] 则主要围绕大型语言模型视角下的查询增强型 RAG 方法展开;Wu 等人 [246] 从技术角度深入分析了 RAG 的关键组件,特别是在检索环节的实现,并进一步探讨了其在自然语言处理中的广泛应用。

此外,也有一些综述尝试从更广义的视角研究 RAG。Zhao 等人 [282, 283] 将 RAG 扩展至多模态场景,分析其在 AIGC(AI 生成内容)背景下的技术路径与应用可能;Peng 等人 [184] 探讨了图结构信息在 RAG 中的应用,说明图结构有助于实现更精确、全面的检索,从而增强关系型知识获取与语境相关生成能力。

除技术研究外,近年来学界也越来越关注 RAG 系统的评估问题。Yu 等人 [266] 的综述专门聚焦于 RAG 评估挑战,提出了一个综合评估框架,并系统分析了现有基准与其局限性。

尽管上述研究覆盖了 RAG 的多个方面,但当前仍缺乏一项能够全面讨论 RAG 基础理论、增强方法以及其跨领域应用的系统性综述。此外,现有综述往往忽视了 RAG 的本质------知识的有效利用。因此,本文旨在弥补这一空白,从"以知识为核心"的角度出发,对 RAG 进行系统性的综述研究。

3 检索增强生成(Retrieval-Augmented Generation, RAG)概述

检索增强生成(RAG)是一种强大的生成范式,它将大型语言模型(LLMs)的内部知识与外部知识相结合,从而提升文本生成的质量。通过在生成流程中引入检索机制,RAG有效弥补了传统序列到序列框架在处理需要大量领域知识任务时的局限性。本节将系统介绍RAG的核心组成部分,包括:从外部知识源进行检索、融合内外部知识的生成过程,以及连接两者的关键步骤------知识集成。


3.1 问题建模

大多数生成任务可被抽象为从输入序列𝒙生成输出序列𝒚的映射,即𝒚 = 𝑓(𝒙)。然而,该基础框架在信息不足或上下文复杂的任务中容易出现性能瓶颈。RAG通过引入一个检索组件来丰富输入信息,弥补这一不足。具体而言,检索函数𝑔从外部知识库中提取相关信息𝒛:𝒛 = 𝑔(𝒙),生成函数𝑓随后将输入𝒙与检索到的上下文𝒛结合,以生成输出结果:𝒚 = 𝑓(𝒙, 𝒛) = 𝑓(𝒙, 𝑔(𝒙))。这一增强框架有效提升了生成质量,特别适用于如机器翻译、视觉问答等对上下文理解要求较高的任务。


3.2 检索(Retrieval)

在大型语言模型(LLMs)的背景下,RAG中的检索过程旨在从外部源中获取有用的知识。此类知识可涵盖多种模态,如文本、图像、视频、音频、代码、表格等,其存储格式也多样,包括普通文本文件、复杂数据库或搜索引擎。同时,知识的结构具有异构性,既可能是非结构化的自然语言文本,也可能是半结构化的HTML数据,甚至是结构化的图谱数据。无论所使用的模态、存储方式或数据结构如何,任何从外部知识库中获取相关信息的行为都可视为一种"检索"过程。


3.3 生成(Generation)

在生成阶段,生成模型会同时利用内部知识与外部检索到的知识,将输入转化为连贯且相关的输出。无论数据格式或具体任务为何,该阶段的核心在于两个方面:"去噪"(Denoising)"推理"(Reasoning)

  • 去噪旨在过滤检索知识中无关或矛盾的信息,确保生成过程仅受可靠内容的影响。

  • 推理 则使模型能从多个信息源中综合信息,建立逻辑联系,从而生成有据可依的高质量输出。

    通过有效地对检索信息进行去噪处理,并实现多源信息的深度推理,生成模型能够在复杂任务中保持输出的准确性与连贯性。


3.4 知识集成(Knowledge Integration)

知识集成,也常被称为"增强",是RAG中将LLM内部知识与外部检索知识融合的关键过程。这种神经-符号融合通常通过以下三种方式实现:

  • 输入层集成(Input-Layer Integration):将检索到的文档与原始查询拼接,作为模型的统一输入进行处理,从而实现查询与外部知识的同步感知。

  • 输出层集成(Output-Layer Integration):在输出的logits阶段融合检索知识,以校正模型最终预测,提升结果准确率,尤其适用于分类或选择任务。

  • 中间层集成(Intermediate-Layer Integration):在生成过程的隐藏层中注入外部知识,使内部知识表示与外部知识进行更细致的交互,从而提升模型的语义表达与推理能力。

不同的集成策略具有各自的优势,可根据任务特性与计算资源约束灵活选择。

4 RAG 的基本原理与核心目标

检索增强生成(Retrieval-Augmented Generation, RAG)模型作为一种融合信息检索与答案生成优势的强大范式,近年来在多个自然语言处理任务中展现出卓越表现。通过引入外部知识源,RAG显著提升了生成内容的质量与相关性,广泛应用于问答系统、文本摘要、对话代理等领域。然而,检索与生成模块的深度融合也带来了多维度的复杂特性与技术挑战,亟需系统性分析与解决。

本节围绕 RAG 系统的关键环节展开,详述用户意图理解、知识检索、知识集成、答案生成与评估指标等核心组件,并结合图3提供深入洞察。


4.1 用户意图的精准理解(Precise User Intent Understanding)

准确理解用户意图是确保RAG模型生成语义相关、上下文适宜响应的前提 [28, 153, 275]。这一任务面临诸多挑战:用户查询往往存在歧义或隐含意义,缺乏明确细节,同时受个性化偏好影响显著,使得模型难以准确判断请求背后的az真实需求。

此外,模糊表达、非正式语言以及具有文化特征的表述也可能遮蔽用户真实意图,导致语言模型难以提取关键信息。这一复杂性要求意图识别不应停留在关键词匹配层面,而应借助深层语义分析来精准还原用户需求。

为克服上述难题,RAG需引入先进的意图理解策略,融合上下文理解与语义建模。例如,可采用文本建模(text modeling) [4]、查询重写(query rewrite) [158]、意图聚类(intent clustering)等技术,以增强模型对用户输入的解析能力,从而驱动更精准的知识检索与生成。

不断优化这些策略,有助于RAG模型更好地适应用户期望与行业特定场景,减少模糊或无关回复的风险,显著提升用户满意度。这不仅夯实了检索与生成模块的质量基础,也为RAG在复杂真实场景下的可适应性与高质量响应能力提供保障。


4.2 知识的准确检索(Accurate Knowledge Retrieval)

知识检索是RAG系统中不可或缺的关键阶段,其作用是为生成过程提供高相关性的外部上下文信息,从而直接影响最终输出的质量。高准确率的检索可确保访问到最相关的知识,而高效率则保障系统能在实时任务中稳定运行。

知识检索面临的首要挑战是对大规模数据集的处理需求。这要求采用倒排索引(inverted index)近似最近邻(ANN)搜索 [12]、以及可扩展的向量表示方法[77]等高效索引技术,以保证快速访问。同时,由于知识源类型多样且数据往往为非结构化,系统还需引入稳健的预处理与标准化方法,确保数据的一致性与相关性。

精度(precision)与召回率(recall)之间的平衡是另一个关键点。高精度有助于过滤无关内容,降低生成过程中的信息噪声;而高召回率则确保涵盖更多潜在相关信息,适用于需要深入理解的复杂任务。

为实现上述平衡,需不断调整检索算法参数,并结合相关反馈机制(relevance feedback)提升结果质量。此外,信息源的动态变化也带来持续挑战,如知识库内容的频繁更新与扩充,可能导致检索系统的知识不及时或失效。因此,构建一个具备持续自适应能力的检索模块,成为实现高效、高质知识检索的关键。

4.3 无缝的知识集成(Seamless Knowledge Integration)

将检索到的外部知识无缝集成至大语言模型(LLM)内部,是一项极具挑战性的任务,需要实现外部知识与LLM内部知识之间的精确对齐 [78]。这一集成过程对于生成语义相关、连贯且上下文合理的输出内容至关重要。

当前面临的一大挑战在于,确保LLM能够有效地解释并利用所检索的知识,而不会引入不一致或事实错误。这要求能够将不同类型的数据(如文本片段、结构化数据等)统一为模型可识别的表示形式。此外,还需处理检索知识与LLM原始知识之间的潜在冲突。例如,当新检索到的信息与训练语料中的知识相矛盾时,可能会导致输出混乱、质量下降。

因此,必须采用冲突解决(conflict resolution)知识验证(knowledge validation)等先进技术,以确保外部知识对生成过程起到正面作用。

此外,知识的时效性同样不容忽视,尤其是在对信息实时性要求较高的应用中。为保持内容的准确性与相关性,集成策略应具备灵活性,能够优先引入近期且与上下文高度相关的数据内容。


4.4 优质答案生成(Superior Answer Generation)

在RAG模型中实现高质量答案生成,是一个集成外部知识与LLM自然语言能力的复杂过程,目标是输出准确、相关且语义连贯的结果。为此,需要在外部知识与模型内部知识之间实现精细协同,降低潜在冲突风险,从而提升事实一致性。

此过程中,交叉验证(cross-referencing)信息验证策略(validation strategies)[241]扮演着关键角色,可作为保障机制,确保所引用信息的准确性,避免生成不实内容,增强用户对结果的信任度。

生成模块还需应对另一挑战:保持文本的自然流畅性,尤其是当所用信息来源于风格和结构差异显著的多种数据源时。模型必须能够无缝融合这些输入,使输出内容不仅可读性强,而且符合用户上下文需求。

为此,需要更高级的语言建模技术和上下文理解能力,以保障输出的一致性和适应性。

此外,生成模块还应具备动态适应性,能根据不同上下文和用户意图调整回答方式。无论是生成精准答案、摘要长篇内容,还是参与多轮互动对话,模型都应能在语气、风格和内容层面灵活调整。这种多样化的任务适应性依赖于稳健的训练策略,以支持模型应对复杂的真实场景。


4.5 全面评估机制(Comprehensive RAG Evaluation)

评估RAG系统的性能具有独特挑战,因为其融合了"检索"与"生成"两个任务。传统评估指标如 BLEU [181] 和 ROUGE [138],主要聚焦于文本生成质量,通过参考答案对比进行评估,但往往无法充分反映检索模块对输出结果的影响。

为此,必须构建综合评估框架 ,同时覆盖检索精度(如准确率、召回率、F1值 [256])与生成质量(如连贯性、流畅性、事实正确性 )等维度。

然而,开发此类评估标准本身充满挑战,需在定量指标定性评价之间实现平衡,才能全面反映系统整体性能。

此外,还需将评估指标与用户实际体验和应用效果对齐,进一步提升其实用性。用户主观感受(如生成内容的相关性与实用性 )虽难以量化,但却是检验RAG系统真实效果的核心。为此,可通过引入用户调研、人类评审适应性反馈机制等手段,增强评估的准确性与现实意义。

另一个重要方面是:确保评估指标在不同领域和应用场景中依然有效。这对于保持RAG系统的通用性与推广性具有关键意义。此外,在评估过程中,引用生成能力(citation generation)也是重要指标,有助于验证所用信息的可靠性与可追溯性。


结语(Conclusion)

RAG系统涵盖了从用户意图理解、知识检索、知识集成、答案生成到评估的全流程,每一环节都面临自身的技术复杂性。从大规模数据检索的效率问题,到生成输出的连贯性与准确性,再到系统层面的一体化优化,均需前沿算法、稳健训练策略与多维评估机制的共同支撑。

尤其是检索与生成任务之间的高度依赖性 ,决定了RAG系统必须进行整体性的设计与优化,确保各模块之间协同增强。

随着相关研究持续深入,RAG模型的能力将不断提升,有望在各类真实应用场景中实现更智能、精准、具备上下文意识的生成系统,满足日益增长的行业需求与用户期待。