传统RAG已到尽头?Agentic RAG 正成为新范式

一、传统RAG的黄金时代结束了

在过去两年多,检索增强生成(RAG,Retrieval-Augmented Generation)一直是缓解大模型上下文衰减、提升知识问答准确性的主流方法。

RAG 的核心思想是: 让模型在回答问题前,先去外部知识库检索相关信息,再基于检索结果进行生成。这样做可以显著降低幻觉(hallucination),并让中小模型也能具备类似"知识型大模型"的能力。

传统 RAG 通常包括三个关键环节:

1.检索阶段: 利用稀疏检索(如 BM25、SPLADE)或稠密向量检索(如embeddingsearch)从文档库中找出最可能相关的内容。

2.重排序阶段: 使用RRF(倒数排名融合)或交叉编码器(cross-encoder)对候选结果重新打分,筛选出最有价值的片段。

3.生成阶段: 将筛选出的上下文拼接进提示词(prompt),交给 LLM 生成答案、摘要或代码解释。

通过这种"外部检索+精选上下文+智能生成"的结构,传统 RAG能在大多数知识问答、论文检索、代码理解等任务中取得远超纯大语言模型的效果。

然而,随着投入更多计算资源或更复杂的流水线,不断改进嵌入模型、重排序器和融合策略,传统RAG的性能提升开始进入边际递减阶段,更多工程堆叠带来的增益越来越有限。

二、智能检索的崛起: 让模型"主动搜索"

在传统 RAG 架构中,检索与生成是割裂的两个阶段: 外部系统(如向量数据库、BM25)负责查找信息,语言模型仅被动地基于检索结果生成答案。模型本身既不了解"该查什么 ",也无法判断"是否需要再查"。

而在新一代的智能体式检索(Agentic Retrieval)中,语言模型不再只是被动地等待检索结果,而是能够主动规划、发起并控制整个检索过程,同时承担两个核心任务:

1.检索、过滤与聚合信息。模型可以决定使用哪种工具、何时发起搜索、何时停止,并整合结果以生成高质量上下文。

2.基于检索的生成与推理。根据检索到的上下文进行生成与推理,如撰写分析报告、编写代码、回答复杂问题等。

这种智能体式检索不再依赖传统的外部系统(如向量数据库、BM25),而是让大语言模型具备工具使用与自我决策能力,能在循环中主动执行检索一推理一再检索,在迭代中完成从"寻找信息 "到"利用信息"的全过程。

这不仅显著降低了延迟与系统复杂度,也让检索与生成过程变得更加自然、智能与高效。

实验发现,即使这些智能体(agent)所使用的工具并不完美,它们的整体表现仍能超越经过精心调优的传统 RAG 系统。

智能体不再是一次性、被动地调用检索,而是能够像人类一样进行动态思考与探索: 它会先发出初步查询,分析返回结果的相关性与有效性,然后根据判断决定是否继续搜索、调整关键词,或切换到其他工具。

这种"推理一检索一再推理"的循环式过程,使模型具备了更强的检索策略优化能力。

三、案例: Grok Code 的极致效率

xAI的 Grok Code 是这一趋势的典型代表。

早期的代码助手(如Copilot或 Code Llama)大多采用传统RAG方式:

先检索项目中的相关文件;

再将检索结果拼接进上下文;

然后交由大模型生成补全或修改。

这类系统虽能工作,但效率低下--模型需要在大量无关上下文中反复推理,导致延迟高、计算成本大、响应不稳定。

Grok Code 的突破在于,它通过强化学习,让模型能够在一个统一的循环中完成整个开发闭环: 检索→分析 → 修改 → 执行 → 验证 → 再检索。

这意味着 Grok Code 不只是一个"会写代码的模型",而是一个能主动发现问题、验证修改并持续优化的智能体。

xAI团队在内部版本 grok-code-fast-1的更新中提到,这种优化后的智能体能:

只检索与当前问题直接相关的代码上下文;

在执行失败后,自动分析错误日志并定位问题文件;

根据结果动态调整检索策略,而非盲目重新搜索。

这让 Grok Code 变得"快得离谱": 它减少了无效搜索与上下文拼接的时间开销,使整个编辑循环更接近人类程序员的思维方式。

然而,Grok Code 的检索对象(代码数据)是相对结构化的。

当我们把这种智能检索思路扩展到非结构化的长文档时,问题会变得更复杂: 模型如何才能在成千上万字的文本中,像人类一样有条理地翻找、理解与推理?

四、PageIndex: 专为长文档设计的新一代检索系统

PageIndex将智能体式检索的理念从代码领域扩展到长文档分析中。它是首个针对长文档的In-Context Index(上下文索引)系统,能够为LLM 构建一个层级化的、目录树式的索引结构(treeindex),并通过以下流程实现高效检索:

1.将整棵索引树直接放入 LLM 的上下文窗口中;

2.让 LLM 像人类翻阅目录一样,在层级树结构中导航与推理,定位到相关章节,并检索所需内容。

这种树索引不再是存在于 LLM 外部的数据结构,而是直接存在于大模型的上下文中。

这意味着模型的检索不再依赖外部的infra(如向量数据库),而是能够像人类一样,在长文档中通过层级目录推理与上下文理解定位信息,实现更智能的"上下文内检索(InContext Retrieval)"

在金融领域的高复杂文档任务中,PageIndex构建的金融问答系统 Mafin2.5在完全未使用向量数据库的情况下,取得了98.7% 的准确率,处于业界领先水平。

五、结语

过去,我们依赖更好的embedding、更复杂的重排序器来提升检索性能;而如今,智能体已经让检索从"被动查询 "进化为"主动探索",使模型能够像人类一样,主动寻找、筛选、组织信息。

更多AI大模型学习视频及资源,都在智泊AI

相关推荐
梵得儿SHI10 小时前
Prompt Engineering 关键技能:精准掌控 LLM 输出的格式、内容与风格
大模型·llm·prompt·格式控制·内容到风格·内容控制·风格控制
大模型教程11 小时前
如何构建你的Agents|谷歌Agents白皮书
google·llm·agent
大模型教程11 小时前
构建可靠AI Agent:从提示词、工作流到知识库的实战指南
程序员·llm·agent
AI大模型11 小时前
OpenAI 官方出品:从 0 到 1 构建 AI Agent 实战指南
程序员·llm·agent
AI大模型11 小时前
《Hello-Agents》项目正式发布,一起从零学习智能体!
程序员·llm·agent
亿牛云爬虫专家1 天前
用LLM自动化生成解析器:从Prompt到Parser的工程化落地
自动化·llm·prompt·xpath·爬虫代理·网页爬虫·解析器
智泊AI1 天前
1分钟搞明白什么是Agent?Agent四大核心能力详解
llm
大模型教程1 天前
一文看懂 AI Agent 全栈架构:从运行环境到大模型基座的系统化落地指南
程序员·llm·agent
大模型教程2 天前
AI 提示词优化工具,让AI更好地理解你的 Prompt
程序员·llm·agent