RAG 基础学习总结
一、学习前言
当下 AI 技术全面普及,RAG、Agent 等相关技术已成为后端开发面试与职场刚需。尤其对于 Java 开发者而言,深耕大模型底层微调、Transformer 原理性价比极低,掌握RAG 应用层落地能力 ,才是贴合业务、可快速变现的核心技能。
本文基于 Ragent 实战项目前置内容,系统复盘大模型短板、RAG 核心原理、全流程架构、业务场景与落地难点,完成系统化知识沉淀。
二、大模型核心工作原理
- 训练阶段:通过海量公开文本数据,学习语言表达规律、通用常识与基础逻辑推理能力,知识固化在模型参数中。
- 推理阶段:基于用户输入内容,逐词预测生成结果,本质是概率排序。
- 核心局限:模型仅能调用训练期录入的知识,无法自主获取实时数据、企业私有资料。
三、大模型五大致命缺陷(企业落地痛点)
- 幻觉严重:无依据编造事实、数据、政策,看似合理实则完全错误,无法用于严谨业务。
- 知识滞后:训练数据存在时间截止点,无法识别新规、新产品、实时业务变动。
- 专业度不足:通用模型垂直领域知识薄弱,无法适配企业定制化业务场景。
- 数据隔离:无法访问企业内部文档、流程制度、私有业务数据。
- 不可追溯:回答无资料来源,金融、法务、医疗等合规场景无法落地。
四、传统检索方案的弊端
传统数据库关键词检索仅能匹配字面内容,无法理解语义:
用户口语化提问、同义不同表述、简化话术,都会导致检索失效,无法满足自然语言问答需求,这也是 RAG 诞生的核心原因。
五、RAG 核心概念与核心价值
1. 定义
RAG(检索增强生成),通过检索+大模型生成结合的模式,弥补纯大模型与传统搜索的双重短板。
2.核心思想
不强制模型记忆所有知识,采用「先检索、再作答」模式,让大模型依托私有知识库、实时资料开卷答题。
3.核心优势
结合向量语义检索的理解能力 + 大模型自然语言组织能力,完美适配企业私有化问答场景。
六、RAG 完整六步执行流程
整体分为离线准备阶段 与在线问答阶段,分工明确,工程性极强。
1. 离线准备(一次性/增量更新)
- Ingest 数据接入:解析 PDF、Word、网页、数据库等多源文件,清洗生成纯净文本。
- Chunk 文本切块:将长文档切割为固定大小片段,控制上下文完整性,避免超出模型上下文限制。
- Embed 向量化:通过嵌入模型,将文本转化为高维语义向量,实现语义化匹配。
- Index 向量入库:将向量、原文、元数据统一存入向量数据库(Milvus 主流方案)。
2. 在线问答(用户实时触发)
- Retrieve 语义检索:用户问题向量化,在向量库中匹配相似度最高的文档片段。
- Answer 生成回答:将检索资料+用户问题整合进 Prompt,由大模型基于参考内容精准作答。
七、RAG 主流落地业务场景
- 企业内部知识库:制度查询、技术文档、流程指引,联动 MCP 实现考勤、审批、数据查询等工具调用。
- 智能客服系统:依托产品手册、FAQ、工单数据,替代传统关键词机器人,降低人工成本。
- 垂直专业领域:法律法条检索、金融研报分析、医疗资料辅助查询,满足合规溯源要求。
- 研发助手:对接代码仓库、API 文档,辅助新人开发、问题排查、接口查询。
八、RAG 落地核心难点
这是 Demo 项目与线上生产项目的核心差距,也是开发重点:
- 数据处理复杂:多格式文档解析困难,切块策略无统一标准,直接影响检索精度。
- 问答预处理麻烦:用户口语化、多轮上下文、多意图问题,需要做问题改写与拆分。
- 意图与路由管控:区分闲聊、知识库查询、工具调用,多知识库精准路由筛选。
- 检索策略优化:纯向量检索存在缺陷,需结合关键词混合检索、结果重排序、权限过滤。
- 多轮会话管理:对话摘要、历史压缩、长期记忆维护,控制 Token 消耗。
- 工程能力要求:答案溯源、请求风控、负载均衡、异常兜底、效果监控缺一不可。
九、RAG 技术优缺点总结
优点
- 落地成本低,无需高额算力做模型微调;
- 知识实时更新,文档修改即可同步生效;
- 答案可溯源,满足企业合规要求;
- 适配私有化部署,保障内部数据安全。
缺点
- 最终效果高度依赖知识库文档质量;
- 系统链路长,排查与维护成本更高;
- 检索、重排等环节会增加接口响应耗时。