为什么 RAG 越来越少被提及了?深入聊聊 AI Agent 时代的技术演进逻辑

前言:从"万能银弹"到"底层组件"的范式转变

打开 2026 年各大 AI 技术社区、技术沙龙,一个非常直观的变化正在发生:曾经霸占 AI 落地赛道、人人张口必谈的 RAG(检索增强生成,Retrieval-Augmented Generation),行业热度肉眼可见地快速回落。

回溯 2023--2024 年,RAG 是解决大模型幻觉、突破上下文限制、落地企业私有知识库的 "万能银弹",几乎所有 ToB AI 项目都会优先搭建向量检索 + 文档增强链路。但时至今日,技术圈讨论重心彻底转移,Agent(智能体)Skill(技能封装)MCP(Model Context Protocol,模型上下文协议) 成为新的高频关键词,大量新项目不再优先落地传统 RAG,不少存量 RAG 系统也在向 Agent 架构重构迭代。

随之而来行业出现一种片面论调:RAG 过气了,会被 Agent 彻底淘汰?

本文给出核心结论:RAG 从未消亡,只是随着 AI 技术范式迭代,褪去了全能光环,回归到它最适配的细分定位。 热度消退的底层逻辑,是被动检索的单点 RAG 架构,正在被主动执行、多能力协同的 Agent 生态系统性升级。下文从技术演进脉络逐层拆解,兼顾底层原理与工程落地视角。


一、复盘:RAG 诞生之初,到底解决了哪些核心痛点?

想要客观看待 RAG 降温,必须先理清它崛起的时代背景。大模型早期原生存在两大致命短板,RAG 作为轻量外挂方案,精准补齐缺陷,才成为 AI 落地标配。

1.1 突破上下文窗口枷锁,低成本接入私有/时效性知识

初代大模型上下文容量极其有限,早期 GPT-3 仅 2048 token,开源底座大多卡在 4k 以内,无法加载企业海量合同、行业手册、内部业务文档。模型知识固化在训练数据集,无法适配企业专属数据、实时更新的业务资料。

RAG 通过 「文档切片→向量化入库→相似度检索→上下文注入 Prompt」 的架构,无需改动模型权重,推理时动态调取外部私有知识,完美解决模型知识滞后、私有化落地难的问题。

复制代码
传统方案 vs RAG 方案对比:

传统微调方案:
训练数据收集 → 数据标注 → GPU 算力投入 → 模型微调 → 部署上线
周期:数周至数月 | 成本:数十万至数百万

RAG 方案:
文档解析 → 向量化 → 存入向量库 → 检索增强推理
周期:数小时至数天 | 成本:数千至数万

1.2 强力抑制大模型幻觉,输出内容可溯源

原生大模型基于概率分布生成文本,极易凭空捏造数据、编造政策条款、混淆专业参数,幻觉问题是严肃 ToB 场景(金融、法律、政务)落地最大阻碍。

RAG 的核心约束在于:模型生成内容全部基于检索返回的真实文档片段,每一段输出都能绑定原文来源,大幅降低事实错误概率,让 AI 回答具备业务可信性。

python 复制代码
# RAG 典型响应格式示例
{
    "answer": "外网连接内网怎么操作。",
    "sources": [
        {
            "document": "连接内网操作手册.pdf",
            "page": 12
        }
    ]
}

1.3 替代高成本微调,降低中小团队落地门槛

在 RAG 普及前,想要让模型掌握行业知识,唯一路径是有监督微调:需要标注数据集、高额 GPU 算力、反复调参规避过拟合,迭代成本极高。RAG 属于零训练、即插即用方案:更新知识库仅需新增文档、增量构建向量索引,不用重新训练模型,中小企业零门槛即可搭建私有问答系统。

依靠以上三点优势,RAG 在两年内席卷全行业,成为知识库问答、智能客服、文档解析、行业咨询的标准技术方案。


二、深度拆解:传统 RAG 与生俱来的架构瓶颈

RAG 的火爆是技术过渡期的必然选择,但它的底层架构设计存在先天性短板。随着大模型能力迭代、业务需求从「简单单轮问答」升级为「多步骤复杂业务闭环」,RAG 的缺陷被持续放大,这也是热度下滑的根本原因。

2.1 纯被动检索链路,无自主推理与任务编排能力

传统 RAG 标准流程如下:

整条链路是单点、线性、被动响应,不存在自主思考、目标拆解、多轮迭代、异常重试逻辑。它只能做「信息检索 + 文本整合」,面对需要分步执行的复杂需求(如 "查合同条款→计算违约金→生成整改通知")无能为力,只能输出碎片化信息,无法完成端到端业务闭环。

对比 Agent 架构:

2.2 检索精度存在天然天花板,上下文污染难以根治

RAG 效果高度依赖文档切分策略、向量模型、重排算法、阈值调优,工程落地普遍存在大量痛点:

问题类型 具体表现 影响程度
切片粒度失衡 过长片段冗余噪声多,过短丢失上下文语义
相似度匹配偏差 语义相近但无关文档被召回,挤占有效 Token
无自主过滤机制 检索到垃圾数据后,模型会被误导,反而加重幻觉
跨段落信息割裂 关键信息分散在多个片段,单独检索无法完整获取
多跳推理缺失 需要关联多个文档才能得出的结论,RAG 无法实现

一旦检索链路出现偏差,整套系统输出全部失真,且 RAG 无法自主校验、修正检索错误,容错率极低。

2.3 运维链路冗长,动态数据适配能力薄弱

一套企业级完整 RAG 系统包含以下七大模块:

  1. 文档解析器:处理 PDF、Word、Excel、PPT 等多种格式

  2. 文本分块:制定切分策略,平衡粒度与语义完整性

  3. 向量化服务:调用 Embedding 模型生成向量

  4. 向量数据库:存储和检索向量索引

  5. 召回重排:对初步召回结果进行精排序

  6. 增量更新:处理文档变更时的索引同步

  7. 来源溯源:记录每段内容的原始出处

开发与运维成本居高不下。业务文档、实时业务数据变更时,需要重新切片、入库、重建索引,很难做到毫秒级实时同步;同时 RAG 仅支持非结构化纯文本,无法直接对接数据库、业务 API、第三方工具,场景边界极其狭窄。

2.4 大模型原生能力进化,压缩 RAG 基础使用场景

近两年主流底座上下文窗口实现跨越式提升:

模型 上下文窗口 发布时间
GPT-3 2,048 tokens 2020
GPT-4 Turbo 128,000 tokens 2023
Claude 3 200,000 tokens 2024
Gemini 1.5 Pro 2,000,000+ tokens 2024
GLM-5 1,000,000+ tokens 2025

GLM-5、Llama 4、Gemini 全系支持百万级上下文,可直接加载整本行业手册、批量业务文档,无需切片检索;同时大模型原生事实校验、长文本理解能力大幅优化,基础幻觉问题显著缓解。大量简单问答场景,直接把完整文档塞入 Prompt 的效果,已经优于传统粗粒度 RAG,RAG 基础使用场景被持续挤压。


三、范式跃迁:Agent + Skill + MCP 为何能替代大部分传统 RAG 场景?

大模型原生能力升级只是外因,Agent+Skill+MCP 三位一体的新架构,才是重构 AI 应用范式的核心内因。这套组合从底层解决了 RAG 所有先天缺陷,实现从「被动查资料」到「主动完成任务」的技术升级。

3.1 Agent:赋予大模型自主规划、迭代执行的智能主体

和 RAG 单次线性调用不同,AI Agent 的核心是思维链拆解、工具决策、多轮迭代、结果自校验。面对复杂需求时,Agent 会自主完成:

  1. 目标拆解:把复杂任务拆分为多个可执行子步骤

  2. 能力判断:识别当前需要调用检索、工具、数据库还是业务接口

  3. 循环执行:分步调用对应能力,处理报错、重试异常

  4. 结果整合校验:汇总多渠道信息,自查逻辑与事实错误后输出

简单对比:

维度 RAG Agent
执行模式 单次线性检索 多轮迭代规划
任务范围 静态问答 复杂业务闭环
错误处理 无自主修正能力 可重试、可回退
工具调用 仅向量检索 可调用任意 API/工具
输出形式 文本答案 结构化数据/操作结果

企业自动化流程、多环节业务办理、复杂数据分析等场景,天然适配 Agent 架构,传统 RAG 完全无法覆盖。

3.2 Skill:标准化结构化能力,替代规则类文档检索

Skill 是 Agent 封装的标准化原子能力,对应固定业务逻辑、规则、流程、参数。对于企业大量可标准化内容(考勤制度、审批流程、产品参数、固定计算公式),完全不需要通过 RAG 检索碎片化文档:直接封装成 Skill,Agent 调用即可精准返回结果。

对比 RAG 检索文档的模式:

维度 Skill RAG
响应速度 毫秒级 秒级(含检索耗时)
结果稳定性 确定性输出 受检索质量影响
版本管控 易于管理 难以追踪变更
适用场景 结构化规则 非结构化文档

由此形成清晰技术分界:结构化、规则稳定的业务场景,由 Skill 承接;海量碎片化、无固定规则的非结构化资料,才交由 RAG 处理。

3.3 MCP(Model Context Protocol):统一资源调度底座,打通 RAG 孤立检索壁垒

MCP 模型上下文协议是当前 Agent 生态的核心基础设施,作用是统一模型、工具、数据库、知识库、外部服务的交互标准。

传统 RAG 是一条孤立的静态文本检索链路,只能读取离线文档,无法联动业务系统;基于 MCP 协议,Agent 可以一站式调度:

  • Skill 工具

  • 关系型数据库

  • 实时接口

  • 向量知识库

  • 第三方插件

实现 「语义检索 + 逻辑计算 + 业务操作 + 实时数据查询」 全链路协同。

MCP 彻底解决 RAG 只能读取静态文档、无法联动业务系统、无法处理动态实时数据的致命短板,是企业级复杂 AI 系统的必备底座。


四、客观定论:RAG 没有死亡,只是回归了它本该有的定位

行业讨论热度下降 ≠ 技术被淘汰。恰恰相反,热度降温是 AI 工程体系走向成熟的标志。RAG 褪去 "万能方案" 的泡沫,成为 Agent 架构里不可或缺的底层配套组件,而非独立完整业务系统。

4.1 在 Agent 生态中,RAG 依然拥有不可替代的三大核心价值

价值一:海量非结构化历史数据唯一检索方案

企业沉淀的百万级合同、历史邮件、行业白皮书、零散资讯无法标准化封装为 Skill,只能依靠向量 RAG 做语义召回,为 Agent 提供原始上下文素材。

价值二:Agent 动态知识更新的底层底座

Skill 适配固定不变的业务规则,而实时新闻、新增文档、动态业务资料需要依靠 RAG 增量更新,弥补结构化 Skill 无法灵活扩容知识的短板。

价值三:高合规场景溯源的最优解

金融、法律、政务等强监管场景,要求 AI 输出每一句话都绑定原文出处。RAG 天然携带文档来源链路,是满足合规审计、事实溯源需求的最低成本方案,无可替代。

4.2 未来分层落地架构(行业通用标准)

技术演进的核心逻辑不是 "新方案淘汰旧方案",而是分层适配、互补协同。

组件 角色定位 核心价值
Agent 系统大脑 自主规划、任务编排、多轮迭代
Skill 标准化手脚 快速响应、确定性输出、易维护
MCP 统一调度总线 资源整合、协议标准化、扩展性强
RAG 非结构化知识库入口 语义检索、动态更新、合规溯源

四者共同构成完整 AI 应用体系。


五、行业案例:从 RAG 到 Agent 架构的迁移实践

5.1 某金融机构智能投顾系统重构

背景: 该机构早期采用纯 RAG 架构搭建智能投顾系统,用于回答客户关于理财产品、市场资讯、政策解读等问题。

遇到的问题:

  • 客户询问 "帮我分析这只基金的风险并推荐替代产品" 时,RAG 只能返回相关文档片段,无法完成分析和推荐

  • 市场数据实时变化,RAG 索引更新延迟导致推荐过时

  • 合规要求每次推荐必须引用最新监管文件,RAG 检索准确率不稳定

重构方案:

  • 引入 Agent 作为核心控制器,拆解用户需求为:风险评测→产品检索→合规校验→生成报告

  • 将固定的风险评估模型封装为 Skill

  • 通过 MCP 对接实时行情 API 和监管文件向量库

  • RAG 仅负责非结构化研报和监管文档的语义检索

效果:

  • 复杂需求完成率从 35% 提升至 92%

  • 响应时间从平均 8 秒降至 3 秒(Skill 承担大部分简单查询)

  • 合规审计通过率从 78% 提升至 99.5%

5.2 某制造企业智能客服系统升级

背景: 该企业使用 RAG 搭建产品售后客服系统,涵盖产品手册、故障排查指南、维修记录等知识库。

遇到的问题:

  • 用户描述故障现象后,RAG 只能返回相关文档,无法引导用户逐步排查

  • 需要结合用户购买记录、保修状态等业务数据时,RAG 无法对接

  • 常见问题重复检索,浪费资源

重构方案:

  • 将常见故障排查流程封装为 Skill(如 "打印机卡纸处理流程")

  • Agent 根据用户描述自主决定:调用 Skill → 查询业务系统 → RAG 检索罕见案例

  • MCP 统一对接 CRM 系统和产品知识库

效果:

  • 首次解决率从 45% 提升至 82%

  • 人工转接率下降 60%

  • 系统运维成本降低 40%


六、给开发者的落地建议

基于上述分析,给出一套可操作的落地建议:

6.1 摒弃 "RAG 万能" 的老旧思维

不要所有场景一刀切搭建向量库。先梳理业务需求类型:

markdown 复制代码
需求分类决策树:

你的需求是什么类型?
├── 固定规则查询(如:请假政策、产品价格)
│   └── → 使用 Skill
├── 多步骤业务流程(如:订单退款、审批流转)
│   └── → 使用 Agent + MCP
├── 非结构化文档检索(如:历史合同、行业报告)
│   └── → 使用 RAG
└── 混合场景
    └── → Agent  orchestrate Skill + RAG + MCP

6.2 优先梳理业务规则,稳定标准化流程封装为 Skill

降低检索噪声,提升响应速度和结果稳定性。例如:

python 复制代码
# Skill 示例:年假计算
class AnnualLeaveSkill:
    def execute(self, employee_id: str, request_days: int) -> dict:
        # 查询员工入职日期
        hire_date = hr_system.get_hire_date(employee_id)
        # 计算工龄
        years_of_service = calculate_years(hire_date)
        # 根据公司政策计算可用年假
        if years_of_service < 1:
            available_days = 0
        elif years_of_service < 5:
            available_days = 5
        elif years_of_service < 10:
            available_days = 10
        else:
            available_days = 15
        # 返回结果
        return {
            "available_days": available_days,
            "requested_days": request_days,
            "approved": request_days <= available_days
        }

6.3 复杂业务以 Agent 为核心,MCP 统一调度各类资源

设计 Agent 的任务规划逻辑,确保其能够正确拆解目标、选择工具、处理异常。

6.4 仅在特定场景引入 RAG 作为底层支撑

  • 海量非结构化文档检索

  • 动态知识库增量更新

  • 合规溯源场景


七、总结与展望

RAG 热度回落的本质,是 AI 行业完成了一次完整技术代际跃迁:从单点检索增强生成的工具时代,迈入智能体自主执行的系统时代。

过去行业疯狂堆砌 RAG,是因为大模型原生能力不足,只能靠外挂检索弥补短板,属于技术过渡期的折中方案;如今 Agent+Skill+MCP 生态成熟,AI 应用从 "问答工具" 升级为 "自动化业务系统",架构更立体、更贴合真实企业复杂需求。

褪去流量喧嚣的 RAG,不再是社区热议的网红技术,却沉淀为 AI 系统不可或缺的底层知识底座。 一项技术褪去泡沫、找准自身边界,恰恰是行业走向成熟最有力的证明。

展望未来,我们可以预见:

  1. RAG 将更加精细化:从粗粒度文档检索进化为细粒度知识单元检索,结合图数据库实现多跳推理

  2. Agent 将更加专业化:垂直领域 Agent 将涌现,针对特定行业深度优化

  3. MCP 将成为行业标准:类似 HTTP 之于 Web,MCP 可能成为 AI 应用互联的基础协议

  4. Skill 生态将更加丰富:开源 Skill 市场将出现,开发者可以共享和复用标准化能力

在这个新的技术格局下,RAG 不会消失,而是以更精准、更高效的方式,继续服务于 AI 应用的底层知识需求。

相关推荐
刘棕霆1 小时前
24—AI Skill 测评工作流工具箱化:为什么 regression 会自然出现
aigc·ai编程·测试
threerocks3 小时前
神级 Skill,作品个个儿爆,我开源了长期自用的手绘风格库
人工智能·aigc
leeyi4 小时前
Callback 系统:给 Agent 管道装上“监听器“
aigc·agent·ai编程
赫媒派4 小时前
OpenClaw 3 个提效设置实战:自动快模式、自适应思考、定时工作流
aigc
深蓝AI4 小时前
MCP 协议拆解:Claude Code 的工具调用背后发生了什么?
aigc
kfaino5 小时前
码农的AI翻身(六)你好,我叫 Parameter
后端·aigc
用户6369790981438 小时前
AI Skill构建的十个层次:从提示词到业务闭环
aigc
怕浪猫9 小时前
第6章 多智能体协作:从单兵作战到群体智能
aigc·openai·ai编程
山间小僧10 小时前
「AI学习笔记」Harness Engineering: 从 Claude Code 源码看 Harness Engineering 最佳实践
aigc·openai·ai编程