RAG 实战指南(五):RAG 信息检索:如何让模型找到‘对的知识’

本文是RAG 实战指南的第五篇文章,这篇主要带大家搞懂 RAG 信息检索,废话不多说,开造!

1.前言

在RAG系统中,生成效果的好坏,往往不取决于模型本身有多"聪明",而是它是否能"查对资料"。通俗地说,RAG 的本质是一种"开卷考试":模型并不靠死记硬背,而是通过查找外部知识库来作答。如果查的资料靠谱、精确、上下文合理,回答自然逻辑清晰、信息详实;反之,如果检索不到关键内容,生成再强的模型也只能"睁眼说瞎话"。

2.embedding生成

2.1文档段落嵌入

在 RAG 系统中,原始文档(无论是论文、网页、PDF 还是 Markdown)首先会被切分成若干逻辑段落。这些段落随后会被送入嵌入模型中转化为向量 ,也就是一串浮点数,代表了这段话的语义特征。这个过程就叫做文档段落嵌入

例如:

arduino 复制代码
"气候变暖的主要原因是温室气体排放。" → [0.12, -0.38, ..., 0.77]
"新能源汽车有助于减少碳排放。" → [0.14, -0.42, ..., 0.81]

这两个段落的向量非常相近,因为它们都和"环境"与"碳排放"有关。

嵌入后的段落会被存储进向量数据库,为后续检索做准备。注意:切分策略越合理,嵌入效果越稳定。否则,一个乱七八糟的句子,即使变成向量,也不会"靠近"它真正应该靠近的知识点。

2.2 用户查询嵌入

用户在提问时,并不是直接丢问题给语言模型,而是先把问题送进同一个嵌入模型中,转换成查询向量。这一步称为用户查询嵌入

举个例子:

css 复制代码
用户提问:"如何减少碳排放?"
嵌入后 → [0.15, -0.41, ..., 0.79]

此时,系统就会在向量数据库中查找和这个查询向量最接近的文档段落向量,通常是 Top-K 个。比如:

  • 段落1:"推广新能源车有助于碳中和"
  • 段落2:"工业废气治理是重要手段"
  • 段落3:"碳捕捉技术日益成熟"

然后,把这些相关段落拼成上下文,送给大模型生成最终回答。

3、相似度检索

文档向量和查询向量都有了,接下来就是"看谁更像谁"的时刻了。这一步叫做相似度检索。简单来说,就是:把用户提问转成向量,然后在海量文档向量查找目标向量。

3.1常见检索方式

  • Top-K 检索:最常用的一种方式,找到与查询向量最相近的 K 个文档段落。
  • MMR(Maximal Marginal Relevance) :一种既考虑相关性又考虑多样性的策略。防止检索结果全是"同义句",更利于生成丰富、全面的答案。

但是上述基础的检索方式有时候还不能满足高精度要求,于是又出现了rerank等检索方法。

3.2 Reranker 二次排序

在 RAG(Retrieval-Augmented Generation)中,初始的向量检索阶段可能会返回 Top-K 个"相关性还不错"的段落,但这些段落:

  • 有可能相关性不够强;
  • 有可能缺乏真正回答问题的能力;
  • 有可能风格、语义重复,影响生成效果。

于是,我们需要 Reranker(重排序器) ------ 就像在初筛简历后,HR 还要对候选人深入面试,挑出真正合适的人。

Reranker 通常使用一个更强大的双塔模型(bi-encoder)或交叉编码器(cross-encoder) ,对用户查询与候选文档段落进行语义匹配打分,并按照分数排序。

流程如下:

  1. 用户输入问题,进行 embedding;
  2. 在向量数据库中查出 Top-K 相关片段;
  3. 将查询和每个候选片段组成 <query, passage> 对;
  4. 使用 Reranker 模型对每对文本打分;
  5. 按照分数排序,取前 N 个作为最终的上下文输入给 LLM。

举个例子:

用户提问:「如何快速训练一个文本分类模型?」

初步向量检索返回:

文本分类的数据预处理技巧。

文本生成与摘要的方法。

深度学习在图像分类中的应用。

sklearn 的 SVM 使用教程。

此时 reranker 会"再面试一次",给出排序如下:

文本分类的数据预处理技巧。(高相关)

sklearn 的 SVM 使用教程。(中相关)

深度学习在图像分类中的应用。(不相关)

文本生成与摘要的方法。(不相关)

最终仅保留 Top-2 给大模型参考,大大减少"答非所问"的概率。

除了Reranker,还有Query Expansion(多查询扩展),也就是一个问题通过同义词扩展、问题改写(prompt-based query rewrite)或者利用 LLM 自动生成多个子问题换着法儿问,有时能搜到不同角度的答案。

4、小结

信息检索阶段对于RAG无疑是很重要的一环,你可以训练最先进的 LLM,但如果它检索不到关键内容,最终生成的结果也只能"编个差不多"。

相关推荐
中杯可乐多加冰12 分钟前
【解决方案-RAGFlow】RAGFlow显示Task is queued、 Microsoft Visual C++ 14.0 or greater is required.
人工智能·大模型·llm·rag·ragflow·deepseek
Baihai IDP9 小时前
“一代更比一代强”:现代 RAG 架构的演进之路
ai·llm·rag·genai·白海科技·检索增强生成
Q同学14 小时前
Qwen3开源最新Embedding模型
深度学习·神经网络·llm
用户849137175471614 小时前
🚀 为什么猫和狗更像?用“向量思维”教会 AI 懂语义!
人工智能·llm
AI大模型知识14 小时前
Qwen3+Ollama本地部署MCP初体验
人工智能·llm
掘我的金14 小时前
MCP生产部署实战:从开发到上线的完整指南
llm·mcp
陈随易18 小时前
Element Plus 2.10.0 重磅发布!新增Splitter组件
前端·后端·程序员
陈随易18 小时前
2025年100个产品计划之第11个(哆啦工具箱) - 像哆啦A梦口袋一样丰富的工具箱
前端·后端·程序员
redreamSo18 小时前
AI Daily | AI日报:科学家怒揭 AI 科研黑幕; 清华:AutoMat让电镜流程大提速; AI辩论:81.7%概率让你信服
程序员·aigc·资讯