RAG 技术详解：结合检索与生成的智能问答新范式

RAG（Retrieval-Augmented Generation，检索增强生成）是一种结合了 信息检索（Retrieval） 与 自然语言生成（Generation） 的问答架构，旨在提升大语言模型的事实性、可追溯性与最新性。

传统的大语言模型（如 GPT 系列）虽然拥有强大的生成能力，但存在两个明显的限制：

RAG 的提出正是为了解决这些问题。

RAG 的整体流程如下：

用户提出一个查询（Query），系统开始处理请求。

查询被转换为向量表示，并在 向量数据库（Vector Database） 中进行相似度检索，以寻找与问题相关的文档内容。

系统预先将各种文档（如网页、PDF、Word 等）进行以下处理：

系统根据查询从向量数据库中检索出最相关的文档片段，作为补充上下文信息（Relevant Contexts）。

将用户的原始问题与检索到的文档拼接为提示词（Prompt），一同输入到大语言模型（LLM）中生成最终回答。

复制代码

Prompt:
根据以下内容回答问题：
[相关内容1]
[相关内容2]
[相关内容3]
用户的问题是：GPT-4 和 GPT-3.5 有什么区别？

大语言模型（如 GPT、LLaMA、ChatGLM 等）在增强上下文的基础上生成回答，并将其返回给用户。

下面是 RAG 系统的结构图示意：

模块名称	功能描述
向量化模块	将文档片段与用户查询向量化，便于在向量空间中计算相似度。
文档加载与切分模块	加载原始文档，并按段落或句子切分成适合处理的文档块（Document Chunks）。
向量数据库	存储文档片段的向量表示，支持高效相似度检索（如 FAISS、Milvus 等）。
检索模块	根据用户 Query 检索出相关的文档片段，返回给生成模块使用。
大语言模型模块	接收查询与上下文，基于语义理解和知识生成最终回答。