RAG：让大语言模型拥有特定的专属知识

作为一个在Chatbot领域摸爬滚打了7年的从业者，笔者可以诚实地说，在大语言模型的推动下，检索增强生成（Retrieval Augmented Generation，RAG）技术正在快速崛起。

RAG的搜索请求和生成式AI技术，为搜索请求和信息检索领域带来了革命性的改变。RAG能够帮助大语言模型根据可靠的数据直接给出答案。

本文就来介绍一下RAG的技术原理，并和Fine-tuning（微调）进行对比，同时介绍RAG的周边要素------向量数据库。

值得一提的是，RAG原本属于Chatbot系统搭建中的重要一环，笔者把RAG提前到生命周期部分中来讲述的原因是在数据处理和Prompt撰写的过程中，需要对 RAG 有基础的了解。

为什么有了大语言模型还需要RAG

ChatGPT的出现，使越来越多的开发者开始深入探索大语言模型在实际生产中的应用效果，尤其关注如何搭建一个拥有专属知识的大语言模型应用。

在开始RAG的介绍前，笔者先介绍大语言模型在当下的能力边界。

大语言模型的能力

（2）逻辑推理的能力：大语言模型具有一定的逻辑推理能力，无须额外增加任何特殊提示词，就能做出简单的推理，并挖掘出问题的深层内容。在补充了一定的提示词后，大语言模型能展现更强的推理能力。

（3）尝试回答所有问题的能力：特别是对话类型的大语言模型，如GPT-3.5、GPT-4，会尝试以对话形式回答用户的所有问题。大语言模型面对无法准确回答的问题，就算回答"我不能回答这个信息"，也会努力给出答案。

（4）通用知识的能力：大语言模型本身拥有海量的通用知识，这些通用知识的准确度较高，覆盖范围广泛。

（5）多轮对话的能力：大语言模型可以根据设定好的角色，理解不同角色之间的多次对话的含义，这意味着可以在对话中采用追问的形式，而不是每一次对话都要把之前所有的关键信息重复一遍。

大语言模型的限制

（1）被动触发：大语言模型是被动触发的，即需要用户输入或给出一段内容，大语言模型才会回应。大语言模型无法主动发起交互。

（2）知识过期：特指GPT-3.5和GPT-4，二者的训练数据都截至2021年9月，意味着大语言模型不知道之后的知识。

（3）细分领域的幻觉：虽然大语言模型在通用知识部分表现优秀，但在特定知识领域（如垂直的医药行业），大语言模型的回答往往存在错误，无法直接采信。

（4）对话长度：如果给大语言模型提供的内容过多，超过模型字符长度的限制，则该轮对话会失败。

用户的常见需求

希望搭建Chatbot的企业，通常期望用大语言模型实现以下功能。

采取多轮对话的形式，理解用户的提问并回答。

要求准确地回答关于企业的专属知识。

不能回答与企业专属领域知识无关的内容。

可以发现，虽然大语言模型有上下文推理能力，但由于大语言模型存在"知识过期"和"细分领域的幻觉"这两个限制，且它会尽可能地尝试回答所有的问题，因此只是单纯地使用大语言模型是没有办法解决所有问题的，RAG正是在这个背景下应运而生的。

RAG的技术原理

在RAG出现之前，早期的问答系统主要依赖预定义的规则和模板，以及简单的关键词匹配技术。知识图谱的出现，为问答系统带来了一定的改进，但这些系统仍然依赖固定的数据结构和知识库，限制了系统处理复杂问题的能力发展。

大语言模型出现后，尤其是ChatGPT的出现，显著提高了机器对自然语言的理解能力，大语言模型在大量文本上进行预训练后，能够生成更自然、更准确的语言。

RAG结合了信息检索和文本生成两种方法，旨在突破传统问答系统的局限。通过将外部数据检索的相关信息输入大语言模型，大语言模型能够基于这些信息生成回答，进而增强答案生成的能力。RAG能够处理更广泛、更复杂的问题。

使用RAG后可以有效解决大语言模型细分领域的幻觉和知识过期的问题。通过预检索模块，无需一次性向大语言模型输入过多的知识，大部分知识都可以用外部数据库承载，解决了当前大语言模型对话长度受 Token限制的问题。

值得注意的是，在生成回答时，RAG 系统不是简单地复制检索到的信息，而是在综合并加工这些信息，这使最终的回答既准确又具有一定的原创性。这一点是RAG区别于其他简单问答系统的关键。

RAG的核心组件

RAG主要有两个核心组件：信息检索和文本生成。

信息检索

信息检索（Retrieve）的主要任务是在一个大型的知识库或文档集合中搜索与用户提出的问题相关的信息。这个过程类似人在图书馆中查找相关书籍以回答某个问题。通常，这一步骤依赖传统的信息检索技术，如倒排索引、TF-IDF评分、BM25算法等，或者采用更现代的基于向量的搜索方法。

虽然让大语言模型拥有特定领域的知识就要外挂向量数据库已经成为业内共识，但其实不只是向量数据库，所有外部存储的内容都可以被检索，再进行二次生成。

文本生成

文本生成（Generate）的职责是根据检索到的信息生成一个连贯、准确的回答。这个过程可以看作根据收集到的材料撰写一篇简短的文章或回答。

这个功能通常采用预训练的生成式语言模型来实现，如GPT系列。这些模型在大量文本上进行预训练，能够生成流畅且语义连贯的文本。

信息检索和文本生成两个组件的紧密结合至关重要。信息检索为文本生成提供了必要的原料，而文本生成则将这些原料转化为易于理解和有用的信息。这种结合使得RAG能够处理更复杂的查询，并生成更准确、更丰富的回答。

值得注意的是，在进行检索之前，对数据的处理也非常重要。通常，外部数据不仅存储在数据库中，也可能存储在外部文档（PDF、Markdown、Word、Excel等）或网页中。这时，需要对所有外部数据进行清洗和处理，同时需要提取一些元数据，包括文件名、时间、章节、图片等。

另外，仅加载外部文件是不够的。通常，外部文件非常大，而且Embedding模型和大语言模型都有长度限制，这时就需要将文件进一步切割成文本块（Chunk），才能精准地进行检索和生成。根据索引方式的不同、模型选择的不同，以及问答文本长度和复杂度的不同，切割的方法也有不同，简单的数据处理的流程如图1所示。笔者会在第10章对数据处理进行更详细的介绍。

图1

RAG的工作流程

首先，通过检索系统引导大语言模型从外界数据库中查找与问题相关的文档或段落；然后，重新构建输入大语言模型的内容。最后，使用大语言模型在此基础上生成符合检索系统规定格式的答案。简而言之，RAG被视为模型的"外挂数据库"，以优化其回复。

为了让读者有完整的结构概览，结合数据处理流程和RAG流程，可以将RAG的工作流程简化为图2所示的形式。接下来将重点介绍RAG的工作流程。

图2

最基础的RAG

最基础的RAG流程如图3所示。

图3

（1）接收查询：系统收到用户的问题或查询。

（2）检索相关信息：系统查询一个或多个外部知识库，查找与该问题相关的信息或文档。

（4）提供回应：系统将生成的回答呈现给用户。

增加预处理查询的RAG

在用户提问环节，可以对问题进行进一步的预处理和理解查询，具体流程如图4所示。

（1）问题预处理：系统先对用户输入进行预处理，如文本清洗、标准化等，确保输入数据的质量。

（2）理解查询：系统运用自然语言处理技术理解查询的内容和意图。这个环节可以利用传统自然语言处理技术中的知识领域和意图识别，即根据用户的提问选择不同数据库中的内容，甚至可以对应不同匹配阈值及操作，具体细节本节不再详述。

图4

带有聊天历史的RAG

在实际对话中，用户和Chatbot的交流往往不是一句话，而是多句话，且上下文之间有指代关系。例如，用户说了两句话：

李佳芮是句子互动的创始人。

她今年多大了？

如果系统逐句处理接收的信息，则无法确定句子中的"她"指的是谁。系统需要将两句话结合起来，才能正确理解用户的提问是"李佳芮多大了"。

在这个例子中，除了对问题进行基础的预处理，还有一步重要的操作就是把之前的历史记录输入系统。通用的做法之一是让大语言模型将当前的问题和先前的问题结合，使用Prompt 引导大语言模型重写用户的问题，这样做可以有效地解决指代消除的问题。具体流程如图5所示。

图5

增加自动排序的RAG

尽管增加了聊天的历史记录，但由于在数据处理环节中系统内切割成的块数量很多，系统检索的维度不一定是最有效的，因此一次检索的结果在相关性上并不理想。这时，需要一些策略对检索的结果进行重新排序，或者重新调整组合相关度、匹配度等因素，使其更适合业务的场景。

对此，通常会设置内部触发器进行自动评审，触发自动重排序的逻辑，具体流程如图6所示。

图6

上述几个案例只是简单的RAG扩展说明，系统搭建章节会展示一个完整的案例。需要注意的是，在很多中间环节都可以根据具体场景加入各种工程化实现，满足真实的应用场景。在某些应用中，即使在最后的环节也不代表RAG技术的完成。用户的反馈可以进一步优化RAG的性能，例如用户评价回答质量的信息可以用来训练和改进模型。

RAG在Chatbot中的应用

RAG 技术在 Chatbot 应用中有非常重要的作用，尤其是在提高回应的相关性和准确性、处理复杂查询及增强个性化和上下文理解能力方面。

提高回应的相关性和准确性

（1）基于检索的信息丰富性：RAG 技术的检索组件可以从大量的知识库中检索与用户提问相关的信息。这意味着Chatbot可以访问更多的数据点，从而提供更丰富、更准确的回答。例如，当用户询问关于某个历史事件的细节时，RAG 技术能够从多个来源中检索相关信息，确保回答的全面性和准确性。

（2）文本生成组件的语境适应能力：RAG 的文本生成组件不仅是简单地重复检索到的信息，还能根据上下文生成适当的回答。这意味着即使利用同样的信息源，对不同的问题，生成的回答也会有所不同，这能确保回应与用户的查询高度相关。

（3）数据质量和过滤机制：Chatbot 中的 RAG 技术通常配备高质量的数据源，并使用过滤机制来确保检索到的信息是可信和准确的。这降低了生成错误信息的风险，提高了回应的准确性。

处理复杂查询

（1）信息聚合能力：对于复杂的查询，RAG 技术能够从不同的信息源中聚合数据。这意味着它可以综合多个观点或信息片段，提供一个全面的回答。例如，回答关于气候变化影响的复杂问题时，RAG能够综合科学研究、统计数据和专家意见等多方面的信息。

（2）上下文感知和连续对话能力：RAG技术在处理复杂查询时还具备上下文感知的能力。这意味着它可以理解并利用对话的历史和上下文信息，更好地处理多轮对话中的复杂查询。

增强个性化和上下文理解能力

（1）个性化回答：RAG技术能够根据用户的历史交互和偏好提供个性化的回答。例如，如果系统知道用户对某个特定主题有深入的了解，则可以提供有关该主题的更深入的回答。

（2）上下文追踪能力和长期记忆：Chatbot中的RAG系统通常具有上下文追踪能力和一定程度的长期记忆。这意味着它们能够记住用户过去的提问和回答，以便在未来的交互中提供更相关和连贯的回答。

（3）情感识别：RAG 技术可以整合情感识别功能，使 Chatbot 能够根据用户的情绪调整其回答的风格和内容。这增加了交互的个性化，使其更人性。

RAG技术在Chatbot中的应用极大地提高了回应的相关性和准确性，使得处理复杂查询成为可能，并显著增强了个性化与上下文理解的能力，为用户提供了更丰富、更自然、更个性化的交互体验，推动了Chatbot技术的发展。

RAG面临的挑战

当然，RAG并非无所不能，当前仍然有以下技术难点需要持续优化。

（1）检索与生成的协同工作：检索到的内容与生成的内容能否紧密结合是一个关键问题。

（2）计算效率：执行检索和生成这两个步骤可能导致系统响应延迟，使整个系统的运行速度变慢，因此对时间敏感的应用而言，RAG可能不太适用。

（3）数据噪声：外部检索的数据可能带有噪声，这会影响生成内容的准确性。

未来，RAG会在法律、教育、商业等方向上有非常多的应用。值得一提的是，在某一特定语言风格（如鲁迅的语言风格）、模型本身的价值观倾向等方面，还需要类似 Fine-tuning的技术来优化大语言模型。

更多关于RAG及大模型时代下从0到1构建Chatbot的内容，欢迎阅读《Chatbot从0到1（第2版）：对话式交互实践指南》一书！

↑限时五折优惠↑