通俗易懂彻底搞懂 RAG(检索增强生成)完整流程
一、什么是 RAG?
RAG 全称 Retrieval-Augmented Generation,检索增强生成,是目前企业落地 AI 应用最核心、最主流的技术方案。
传统大模型存在一个致命短板:知识滞后、私有数据盲区、容易幻觉。大模型的知识全部来自训练数据,无法实时获取最新信息,也不了解企业内部文档、私人资料,还经常凭空编造虚假答案。
而 RAG 的核心作用就是:不让大模型凭空瞎想,先从私有知识库检索真实、准确的资料,再让大模型基于真实资料生成答案,从根源解决大模型幻觉、知识陈旧、无法适配私有业务场景的问题。
常见落地场景:企业内部 AI 知识库助手、智能客服、文档问答、法律条文检索、本地知识库聊天机器人、私人笔记问答等。
二、RAG 完整核心流程(工业标准 6 步)
RAG 整体分为两大阶段:离线知识库构建阶段 + 在线问答推理阶段,每一步都有明确的技术作用和目的,下面分步详细拆解。
1. 数据清洗与分片(Chunk 切块)
原始数据源通常是杂乱、冗长的 PDF、Word、网页文本、业务手册、聊天记录、文档合集等,无法直接用于向量化检索。
这一步的核心工作:对原始数据进行清洗,去除乱码、空行、水印、无效广告、重复内容,再按照固定长度对长文本进行切片拆分。
为什么要切块?
-
大段全文向量化精度极低,包含大量无关信息
-
小片段语义更聚焦,检索匹配更精准
-
适配 Embedding 模型的最大输入长度限制
行业常规做法:固定字符长度切片 + 重叠切片(防止上下文语义被截断丢失关键信息)。
2. 文本向量化(Embedding)
计算机无法直接理解文字、语义、含义,只能识别数字。
这一步会调用Embedding 嵌入模型,将每一段切好的文本片段,转化为一串高维数字向量(可以简单理解为:把文字的语义,翻译成机器能读懂的语义坐标)。
核心原理:语义越相似的文本,生成的向量坐标距离越近;语义完全无关的文本,向量距离很远。这也是后续检索匹配的核心依据。
3. 构建索引 & 入库存储
我们不会丢掉原始文本,而是做双向绑定存储:
-
将 原始文本片段 + 对应的向量数据 一一对应
-
存入向量数据库并建立索引
这一步属于离线预构建,只需要做一次。后续用户提问时,无需重复处理文档,直接调用已构建好的向量库即可,大幅提升问答响应速度。
4. 向量召回(Retrieval / 粗筛)
用户输入问题后,正式进入在线问答流程:
第一步先对用户的提问文本做同样的 Embedding 向量化,生成问题向量。
随后向量数据库通过相似度算法(余弦相似度等),在海量向量数据中,快速匹配出语义最接近的 TopN 片段(一般召回 10--20 条)。
阶段特点:快、量大、粗精度。
这一步的核心目的是:先从成千上万的文档中,快速过滤掉绝对无关的内容,留下候选素材,不追求极致精准,优先保证不遗漏关键信息。
5. 重排序(Rerank / 精筛)
很多新手容易混淆:召回 ≠ Rerank,二者是前后衔接的两步。
向量召回只看「语义相似度」,不理解用户真实提问意图,经常会出现:语义相似但答非所问、内容冗余、优先级混乱的问题。
而 Rerank 模型是专门的精排模型,会对刚刚召回的十几条候选片段,结合用户问题做深度语义理解,重新计算相关性分数,筛选出最贴合问题核心的 Top3--Top5 优质片段,剔除冗余、无关、低价值内容。
阶段特点:速度慢于召回,但精度极高,是提升 RAG 回答质量的关键一步。
6. 大模型生成答案(Generation)
完成精筛后,系统会把「用户原始问题 + Rerank 筛选后的精准上下文片段」拼接成完整 Prompt,交给大模型。
此时大模型不再依靠自身的训练知识,严格基于我们提供的真实私有资料,整理、总结、推理、生成通顺、准确、有据可依的答案。
彻底实现:答案来源可追溯、不幻觉、贴合业务、支持私有数据问答。
三、极简总结(面试/复盘万能口诀)
离线:切块清洗 → 向量化 → 入库建索引
在线:问题向量化召回 → Rerank 精排 → LLM 基于素材生成答案
四、为什么必须用「召回 + Rerank」双层结构?
-
只召回不 Rerank:杂质多、上下文冗余、容易答非所问、答案质量差
-
只 Rerank 不召回:无法处理海量数据,全量精排速度极慢,无法落地商用
双层架构完美兼顾了检索速度 和回答精度,是目前工业级 RAG 的标准最优方案。