RAG 技术详解:结合检索与生成的智能问答新范式

一、什么是 RAG?

RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合了 信息检索(Retrieval)自然语言生成(Generation) 的问答架构,旨在提升大语言模型的事实性、可追溯性与最新性。

传统的大语言模型(如 GPT 系列)虽然拥有强大的生成能力,但存在两个明显的限制:

  • 知识封闭性:训练完成后的知识无法动态更新。
  • 幻觉问题(Hallucination):模型会生成看似合理却不真实的内容。

RAG 的提出正是为了解决这些问题。


二、RAG 的流程详解

RAG 的整体流程如下:

1. 用户提问(User → Query)

用户提出一个查询(Query),系统开始处理请求。

2. 查询向量化并检索(Vectorize & Search)

查询被转换为向量表示,并在 向量数据库(Vector Database) 中进行相似度检索,以寻找与问题相关的文档内容。

3. 文档索引与预处理(Indexing)

系统预先将各种文档(如网页、PDF、Word 等)进行以下处理:

  • 文档加载:将外部文档输入系统;
  • 文档切分(Chunking):将大文档切分为更小的文本块(如段落、句子);
  • 向量化存储:使用嵌入模型将每个文本块转为向量,并存入向量数据库中(如 FAISS、Milvus、Qdrant)。
4. 相关上下文检索(Retrieve Relevant Contexts)

系统根据查询从向量数据库中检索出最相关的文档片段,作为补充上下文信息(Relevant Contexts)。

5. 增强输入并生成(Augment + Generate)

将用户的原始问题与检索到的文档拼接为提示词(Prompt),一同输入到大语言模型(LLM)中生成最终回答。

复制代码
Prompt:
根据以下内容回答问题:
[相关内容1]
[相关内容2]
[相关内容3]
用户的问题是:GPT-4 和 GPT-3.5 有什么区别?
6. 返回响应(Response)

大语言模型(如 GPT、LLaMA、ChatGLM 等)在增强上下文的基础上生成回答,并将其返回给用户。

三、RAG 系统结构图

下面是 RAG 系统的结构图示意:


四、RAG 的核心模块组成

模块名称 功能描述
向量化模块 将文档片段与用户查询向量化,便于在向量空间中计算相似度。
文档加载与切分模块 加载原始文档,并按段落或句子切分成适合处理的文档块(Document Chunks)。
向量数据库 存储文档片段的向量表示,支持高效相似度检索(如 FAISS、Milvus 等)。
检索模块 根据用户 Query 检索出相关的文档片段,返回给生成模块使用。
大语言模型模块 接收查询与上下文,基于语义理解和知识生成最终回答。

更多阅读:
一文彻底搞懂大模型 - RAG(检索、增强、生成)

相关推荐
墨染天姬3 小时前
【AI】端侧AIBOX可以部署哪些智能体
人工智能
AI成长日志3 小时前
【Agentic RL】1.1 什么是Agentic RL:从传统RL到智能体学习
人工智能·学习·算法
2501_948114243 小时前
2026年大模型API聚合平台技术评测:企业级接入层的治理演进与星链4SAPI架构观察
大数据·人工智能·gpt·架构·claude
小小工匠3 小时前
LLM - awesome-design-md 从 DESIGN.md 到“可对话的设计系统”:用纯文本驱动 AI 生成一致 UI 的新范式
人工智能·ui
黎阳之光3 小时前
黎阳之光:视频孪生领跑者,铸就中国数字科技全球竞争力
大数据·人工智能·算法·安全·数字孪生
小超同学你好3 小时前
面向 LLM 的程序设计 6:Tool Calling 的完整生命周期——从定义、决策、执行到观测回注
人工智能·语言模型
智星云算力4 小时前
本地GPU与租用GPU混合部署:混合算力架构搭建指南
人工智能·架构·gpu算力·智星云·gpu租用
jinanwuhuaguo4 小时前
截止到4月8日,OpenClaw 2026年4月更新深度解读剖析:从“能力回归”到“信任内建”的范式跃迁
android·开发语言·人工智能·深度学习·kotlin
xiaozhazha_4 小时前
效率提升80%:2026年AI CRM与ERP深度集成的架构设计与实现
人工智能
枫叶林FYL4 小时前
【自然语言处理 NLP】7.2.2 安全性评估与Constitutional AI
人工智能·自然语言处理