RAG技术近三年工程实践进化综述

摘 要

检索增强生成(Retrieval-Augmented Generation,RAG)技术是近年来大语言模型应用领域最具影响力的技术创新之一。本报告系统梳理了2023年至2025年RAG工程实践的演进历程,涵盖从Naive RAG到Agentic RAG的五代技术范式,分析了知识提取、索引组织、检索方法等关键环节的技术突破,总结了主流工程实践工具生态的发展现状,并展望了多模态融合、智能体协同等未来发展趋势。研究表明,RAG技术已完成从概念验证到工程化实践的关键跃迁,凭借其灵活性、实时性和成本优势,成为企业级AI应用的主流选择,在企业市场占据显著份额。

关键词:检索增强生成、RAG工程实践、大语言模型、知识检索、智能问答

1 RAG技术概述与研究背景

检索增强生成(Retrieval-Augmented Generation,RAG)是一种结合信息检索与文本生成技术的新型人工智能框架。其核心理念在于将传统信息检索系统的优势与生成式大语言模型的功能相结合,使大型语言模型(LLM)能够充分利用外部知识库中的信息,撰写更准确、更具时效性且更贴合具体需求的文字。

RAG技术的工作流程主要包括检索、增强和生成三个步骤:首先,模型从外部知识库或文档库中检索与输入问题相关的信息;然后,将检索到的信息与原始问题一起作为上下文提供给生成模型;最后,生成模型根据增强后的上下文产生最终回答。这种架构有效解决了大语言模型知识滞后、幻觉生成以及长尾知识覆盖不足等问题。

2 RAG工程实践的演进阶段

2024年被称为RAG发展元年,这一年RAG技术呈现爆发态势。根据技术复杂度与应用深度的不同,RAG系统的工程实践可以划分为五个演进阶段,代表了不同的技术实现路径和应用场景。

2.1 Naive RAG(朴素RAG)

Naive RAG是RAG技术最基础的实现形式,也是大多数开发者首次接触RAG时的入门架构。其工作流程包括:索引构建、检索和生成三个基本环节。具体而言,系统先将文本数据进行分块(Chunking),然后对每个分块进行向量化处理并存储到向量数据库中;当用户提出查询时,系统将查询转换为向量,在向量数据库中进行相似度搜索,检索出最相关的文本分块;最后,将检索到的文本与用户问题一起输入大语言模型,生成最终回答。

然而,Naive RAG存在明显的局限性。首先,简单的文本分块策略往往不够科学,无法很好地保留文档的语义完整性;其次,检索到的分块可能与查询意图不相关,导致上下文信息冗余;此外,未经优化的检索结果可能包含大量噪声信息,影响生成质量。

2.2 Advanced RAG(高级RAG)

针对Naive RAG的不足,Advanced RAG进行了系统性的优化改进,主要体现在检索前、检索后和检索过程三个阶段的增强。在检索前阶段,系统通过查询改写、查询扩展等技术提升用户查询的表达质量,使其更易于与知识库中的相关内容匹配;在检索后阶段,系统对初步检索结果进行重排序(Reranking),筛选出更高质量的相关文档;在检索过程阶段,系统采用混合检索策略,结合BM25关键词检索与语义检索的优势,提升检索的召回率和精确率。

2024年的技术发展表明,Advanced RAG因性能优异且实现难度适中,成为企业应用的主流选择。在满足大多数客户需求时,通过在Advanced RAG基础上进行针对性优化,往往比构建复杂的Modular RAG更加高效。

2.3 Modular RAG(模块化RAG)

Modular RAG代表了RAG架构的进一步发展,其核心理念是将检索增强生成系统拆分为多个独立可复用的模块,每个模块负责特定的功能任务。这种模块化设计使得系统具有更高的灵活性和可扩展性,开发者可以根据具体应用场景自由组合不同的模块。

典型的Modular RAG架构包含以下核心模块:知识索引模块负责将原始文档转换为可检索的向量表示;查询理解模块负责解析用户查询的意图和实体;检索模块负责从知识库中获取相关信息;重排序模块负责对检索结果进行优化排序;生成模块负责基于增强上下文生成最终回答。此外,Modular RAG还支持模块间的动态路由和组合,能够适应更加复杂多变的应用场景。

2.4 Graph RAG(图谱RAG)

Graph RAG是RAG技术与知识图谱深度融合的产物,代表了RAG在知识表示和组织方面的重大突破。传统的RAG系统以平面化的向量形式存储和检索知识,而Graph RAG则引入了图结构来表达实体之间的关系,实现了更深层次的知识理解和推理能力。

Graph RAG的核心优势在于其强大的关联发现能力。通过构建知识图谱,系统能够发现不同文档、不同实体之间的隐含关系,提供更加全面和深入的答案。特别是在处理复杂查询、多跳推理和全局性问题时,Graph RAG展现出显著优势。2024年,以微软GraphRAG为代表的图谱RAG方案在学术界和产业界获得了广泛关注。

2.5 Agentic RAG(智能体RAG)

Agentic RAG是RAG技术与大模型智能体(Agent)深度融合的最新范式,代表了RAG系统向自主决策和动态执行方向的演进。在Agentic RAG架构中,RAG不再是一个静态的管道系统,而是一个具备自主规划、工具调用和反思能力的智能系统。

Agentic RAG的核心特征包括:自主规划能力,系统能够根据用户需求自主决定调用哪些工具和执行何种操作;动态执行能力,系统可以实时访问多种数据源并进行迭代检索;反思优化能力,系统能够对生成结果进行评估和反思,必要时进行二次检索和修正。这种架构融合了数据库、模型微调、逻辑推理和智能体等多种技术,使其能够适应各种复杂灵活的任务场景。

3 2023-2025年关键技术突破

在RAG技术快速发展的三年间,多项关键技术在工程实践层面取得了突破性进展,深刻改变了RAG系统的构建方式和应用形态。

3.1 知识提取技术的演进

知识提取是RAG系统的第一个关键环节,其质量直接影响后续检索和生成的效果。2024年,多样化文档类型的解析成为技术重点。企业在实际应用中面临的文档类型日益复杂,包括PDF表格、旧格式文件、扫描图像等非结构化或半结构化数据。

针对这些挑战,PaddleOCR等开源工具在文档解析领域表现突出,能够有效提取PDF中的表格、图像和文本内容。更进一步,研究者开始关注前置工作流优化,即通过知识生产和协作工具从源头改善知识提取质量,这被认为是下一阶段的重要技术方向。

3.2 索引组织方式的创新

索引组织是连接原始文档与向量检索的桥梁,其设计直接影响检索的效率和准确性。2024年,索引组织方式呈现出从简单到复杂、从单一到多元的发展趋势。

基础的分块策略(Chunking)仍是主流的索引构建方式,但研究者提出了多种优化方法。元数据附加技术通过为每个文本块添加来源、类型、时间等元数据,提升了检索结果的可解释性和后续处理的灵活性。文本叠加技术通过在相邻文本块之间添加重叠内容,有效缓解了关键信息被意外截断的问题。针对引用消解问题,研究者提出了结合知识图谱的解决方案,通过显式建模实体关系提升引用准确性。

值得注意的是,尽管图数据库在理论上具有强大的关系表达能力,但由于成本较高和适用场景有限,在实际生产环境中的普及程度仍然有限。

3.3 检索方法的优化

检索是RAG系统的核心环节,检索质量的高低直接决定了生成效果的上限。2024年,混合检索(Hybrid Search)和排序优化成为工程实践的标准配置。

混合检索结合了BM25关键词检索与语义检索的双重优势:BM25能够精准匹配关键词,适合处理专业术语和精确查询;语义检索则能够理解查询的深层含义,处理同义词和语义相关性问题。两种方法的融合通过倒数排名融合(RRF)等技术实现,显著提升了检索的召回率和精确率。

重排序(Rerank)技术是检索优化的另一关键环节。初步检索返回的候选文档可能存在相关性不够高的问题,重排序模型能够对候选文档进行二次评估,筛选出最相关的Top-K文档输入生成模型。这种两阶段检索架构已成为高性能RAG系统的标准配置。

3.4 长上下文与RAG的关系

2024年上半年,长上下文窗口技术成为大模型领域的焦点,也引发了关于RAG是否会因此过热的讨论。部分观点认为,随着上下文窗口的扩大,RAG的必要性将降低。

然而,实践证明长上下文与RAG并非替代关系,而是互补关系。长上下文适合处理单文档内的长程依赖问题,但当涉及大规模知识库或多文档综合分析时,RAG仍然不可或缺。此外,RAG在计算成本、实时性和可解释性方面具有明显优势。因此,关于RAG过时的争论最终平息,两者各自发挥优势、相互配合成为行业共识。

4 主流工程实践工具生态

随着RAG技术的成熟,一批专业的工程实践工具和框架应运而生,形成了完整的RAG开发生态系统。根据功能定位的不同,这些工具可以分为综合平台、向量数据库、检索工具和特定领域解决方案等类别。

4.1 综合RAG开发平台

综合RAG开发平台提供了从数据处理到应用部署的完整工具链,大幅降低了RAG系统的开发门槛。代表性平台包括:Dify作为开源的大模型应用开发平台,提供了可视化的RAG流程编排能力;RAGFlow专注于企业级知识管理场景,提供了完善的文档处理和问答系统搭建能力。这些平台使得用户可以在极短时间内搭建起一套可用的RAG系统,推动了RAG技术的快速普及。

4.2 向量数据库与检索基础设施

向量数据库是RAG系统的核心基础设施,负责存储和检索向量化的知识表示。2024年,向量数据库市场持续繁荣,Milvus、Qdrant、Weaviate等开源向量数据库在性能和功能方面持续演进,同时Pinecone等云服务也提供了稳定的企业级解决方案。

除了专用的向量数据库,传统数据库厂商也在积极扩展向量检索能力。PostgreSQL通过pgvector插件提供了向量相似度搜索功能,Elasticsearch等搜索引擎也加入了向量检索支持,使得RAG系统的技术选型更加灵活多样。

4.3 Embedding与Rerank模型

Embedding模型负责将文本转换为向量表示,是决定检索质量的关键因素。2024年,开源Embedding模型的能力显著提升,文本嵌入(Text Embedding)模型在多项基准测试中取得了优异成绩,为RAG系统提供了更多选择。

Rerank模型作为检索管道的重要补充,通过对初步检索结果进行重排序,显著提升了最终检索质量。开源社区涌现了多个高效的Rerank模型,为构建高性能RAG系统提供了有力支持。

5 市场需求与行业应用演变

RAG技术的快速发展离不开市场需求的强力推动。2024年,RAG在企业市场的表现经历了从狂热到理性的转变,反映出行业对技术应用的深入理解。

5.1 RAG与微调技术的竞争与共生

2024年初,关于RAG与大模型微调(Fine-tuning)哪种技术路线更优的争论趋于明朗。从成本和实时性角度分析,RAG具有压倒性优势:RAG无需训练即可接入新知识,处理时效性内容更加灵活;而微调需要大量标注数据和计算资源,且知识更新需要重新训练。

根据市场调研数据,RAG占据了企业市场51%的份额,远超微调技术的市场地位。越来越多的企业认识到,RAG的白盒管控能力和对业务流程的深度适配性使其在应对复杂需求时更具优势。当然,在某些特定场景下,微调仍然不可或缺,RAG与微调的结合使用也成为常见的技术方案。

5.2 行业应用场景的深化

2024年上半年,企业对RAG的需求多为"大而全",希望通过AI技术全面重塑业务流程。然而,随着技术落地和实际应用的深入,行业逐渐回归理性,开始聚焦于小而难的具体场景,追求技术的实用性和稳定性。

金融、企业情报等领域成为RAG技术的典型应用场景。这些领域需要快速更新和维护大量信息,RAG为客户提供了便捷的知识管理手段,能够高效处理实时资讯,有效缩短知识更新周期。在客户服务、知识管理、智能决策等具体场景中,RAG技术展现出不可替代的价值。

6 未来发展趋势与展望

站在2025年的起点回望,RAG技术已经完成了从概念验证到工程化实践的关键跃迁。展望未来,RAG技术将沿着多个方向持续演进。

6.1 多模态RAG的崛起

如果说2023年见证了大语言模型的爆发,那么2024年则是多模态模型元年。GPT-4o等模型展示了强大的多模态理解能力,相应的RAG技术也在从单语言模态向多模态扩展。

多模态RAG能够处理图像、音频、视频等多种模态的信息,为构建更加全面的知识问答系统提供了可能。图像检索、视频问答等场景将成为多模态RAG的重要应用方向。

6.2 Agent与RAG的深度融合

Agentic RAG代表了RAG技术与智能体融合的方向,这一趋势将在未来进一步深化。具备自主决策能力的RAG系统将能够处理更加复杂的任务,如多步骤推理、多数据源协调执行等。

随着大模型智能体技术的成熟,RAG系统的智能化水平将持续提升,自主学习和自我优化的能力将成为下一代RAG系统的核心特征。

6.3 工程化与标准化的推进

RAG技术的工程化实践将持续推进,工具链将更加完善,部署将更加便捷。随着更多企业将RAG投入生产环境,关于系统可靠性、可观测性和安全性的标准化需求将日益突出。

预计未来将形成更加成熟的RAG最佳实践框架,为不同行业和场景提供可复用的解决方案,降低技术落地的门槛和风险。

7 结论

2023年至2025年,RAG技术经历了从概念兴起到工程成熟的关键发展期。从Naive RAG到Agentic RAG的五代演进,体现了RAG技术在架构设计和工程实践层面的持续创新。

在技术层面,知识提取、索引组织和检索方法等关键环节取得了突破性进展,混合检索和重排序成为标准配置,工具生态日趋完善。在市场层面,RAG凭借其灵活性、实时性和成本优势,已成为企业级AI应用的主流选择,占据了显著的市场份额。

展望未来,多模态融合、智能体协同和工程化标准化将成为RAG技术发展的主要方向。RAG作为连接大模型与现实世界知识的关键桥梁,将在推动AI技术落地、释放大模型潜力方面持续发挥不可替代的作用。

参考文献

1\] ZHAO P, ZHANG H, YU Q, et al. Retrieval-Augmented Generation for AI-Generated Content: A Survey\[J\]. arXiv preprint arXiv:2402.19473, 2024. \[2\] GAO Y, XIONG Y, GAO X, et al. Retrieval-Augmented Generation for Large Language Models: A Survey\[J\]. arXiv preprint arXiv:2312.10997, 2024. \[3\] FAN W, DING Y, NING L, et al. A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models\[J\]. arXiv preprint arXiv:2405.06211, 2024. \[4\] WANG X, WANG Z, GAO F, et al. Searching for Best Practices in Retrieval-Augmented Generation\[J\]. arXiv preprint arXiv:2407.01219, 2024. \[5\] LI S, STENZEL L, EICKHOFF C, et al. Enhancing Retrieval-Augmented Generation: A Study of Best Practices\[J\]. arXiv preprint arXiv:2501.07391, 2025. \[6\] Microsoft. GraphRAG: A reasoning engine based on knowledge graphs\[EB/OL\]. https://github.com/microsoft/graphrag, 2024. \[7\] 北京大学数据与智能实验室。 RAG技术综述与五大范式分析\[R/OL\]. 2024. ------ 研究报告结束 ------ 由Minimax Agent AI生成

相关推荐
nix.gnehc2 小时前
实战部署|Ollama\+Qwen2\.5:3b\+Open WebUI 本地AI助手搭建全记录(附避坑指南)
人工智能·大模型·llm·ollama
HIT_Weston11 小时前
45、【Agent】【OpenCode】本地代理分析(请求&接收回调)
人工智能·agent·opencode
鬼先生_sir12 小时前
Spring AI Alibaba 1.1.2.2 完整知识点库
人工智能·ai·agent·源码解析·springai
是小蟹呀^13 小时前
【总结】LangChain中工具的使用
python·langchain·agent·tool
周末程序猿13 小时前
详解 karpathy 的 microgpt:实现一个浏览器运行的 gpt
人工智能·llm
是小蟹呀^14 小时前
【总结】提示词工程
python·llm·prompt·agent
进击的野人17 小时前
MCP协议:让AI应用像插USB一样连接外部世界
人工智能·agent·mcp
Tadas-Gao18 小时前
从“驯马”到“驭队”:Harness Engineering 如何重构 AI 产品化的底层逻辑
人工智能·语言模型·架构·大模型·llm·harness
wasp52018 小时前
从 Vibe Coding 到真·生产力:OpenHarness 的“Harness 方程式”及其实战分析
人工智能·架构·开源·agent