阅读来源:什么是 RAG 以及它如何工作、企业级客服 Agent 实战:用 LangGraph 搭建可升级、可审计的客服系统
一、核心定位:从知识检索到企业级智能 Agent
这两篇教程完整覆盖了从基础 RAG 技术到企业级智能客服的全链路:
-
基础 RAG:解决大模型在企业场景中知识过时、幻觉、成本高的核心问题,让大模型能基于企业私有知识稳定回答问题
-
高级 RAG + LangGraph:把 RAG 能力落地到真实的企业客服流程,实现可路由、可审计、可升级的智能客服系统,而不是简单的聊天机器人
在这个模式下,开发者的角色从「算法工程师」转变为「业务架构师」:
-
你:负责定义业务规则、流程边界、安全策略
-
AI:负责把自然语言需求转化为技术实现,处理检索、状态流转、异常处理这些底层细节
-
框架:负责提供向量检索、状态管理、Agent 编排的基础能力
二、为什么需要 RAG
在企业场景中,单纯依赖大模型自身的知识,或者把所有文档塞进长上下文,会遇到三类无法解决的问题:
2.1 长上下文的天然缺陷
| 问题 | 说明 |
|---|---|
| 成本飙升 | 推理成本与上下文长度呈强正相关,200K Token 的推理成本是 8K 的几十倍,绝大多数任务只需要少量相关信息,全量塞入会造成严重浪费 |
| 注意力偏差 | 长上下文会出现注意力衰减,模型对早期信息关注度下降,还容易被无关信息干扰,反而越难给出准确回答 |
| 资源浪费 | 大量无关的文档 Token 会占用计算资源,拖慢响应速度,降低系统吞吐量 |
2.2 知识管理的核心痛点
-
知识更新困难:政策、产品、价格更新时,微调模型成本高周期长,手动维护提示词容易出错
-
可追溯性差:纯模型回答无法溯源,合规审计、风控解释需要明确的决策依据,黑盒参数无法满足
-
幻觉问题:通用模型容易编造不存在的规则、流程,企业场景中这会带来严重的业务风险
2.3 RAG 的核心价值
RAG 不是简单的「知识库问答」,而是企业级 AI 应用的基础能力,它解决了这些核心问题:
-
时效性:无需重新训练,直接接入最新的业务文档、数据库数据,知识随时更新
-
专业性:接入企业私有文档、行业标准,让通用模型拥有垂直领域的专业能力
-
可控性:回答可溯源,每条结论都能找到对应的文档来源,支持审计和合规
-
低成本:按需检索,只把最相关的信息交给大模型,大幅降低推理成本,小模型也能处理大知识库
三、RAG 的核心工作原理
RAG 的完整流程分为离线索引和在线检索两个阶段,核心是「先检索,再生成」。
3.1 离线索引阶段
提前把企业知识库处理成可检索的结构:
-
文档切块:把长文档拆成语义完整的小片段(chunks),避免单个片段过长影响检索精度
-
向量化:用 Embedding 模型把每个文本片段转换成高维向量,向量的数值组合可以精准捕捉文本的语义
-
向量存储:把向量存入向量数据库,建立索引,支持后续的相似度检索
3.2 在线检索与生成阶段
用户提问时,实时完成检索和回答的闭环:
-
问题向量化:把用户的问题转换成和文档向量同维度的查询向量
-
相似度检索:在向量数据库中,计算查询向量和所有文档向量的余弦相似度,召回最相关的 Top-K 个文档片段
-
Prompt 组装:把用户问题、检索到的文档片段、系统指令组装成完整的 Prompt
-
生成回答:大模型基于检索到的参考信息,生成准确、可溯源的回答,不会编造信息
3.3 核心组件说明
| 组件 | 作用 |
|---|---|
| Embedding 模型 | 把文本转换成语义向量,是检索精度的核心,常用的有 BGE、OpenAI text-embedding 系列 |
| 向量数据库 | 专门优化了高维向量的相似度检索,支持快速召回相关文档,常用的有 Pinecone、Weaviate、FAISS |
| Rerank 模型 | 对初召回的结果做二次排序,进一步过滤无关信息,提升检索的精准度 |
| 大模型 | 基于检索到的信息生成回答,负责把零散的文档片段整合成通顺、准确的自然语言回答 |
四、RAG 的技术演进
RAG 技术已经从最基础的版本,逐步演化出更成熟的方案:
-
Naive RAG(基础版):最原始的流程,简单切块、向量检索、直接生成,适合小项目快速上手
-
Advanced RAG(进阶版):加入了预处理优化、检索优化、重排序、多轮检索等能力,解决基础版的召回不准、信息不全的问题
-
Modular RAG(模块化版):把 RAG 拆成可替换的模块,每个模块可以独立升级、替换,比如换 Embedding 模型、换向量库,不用改整体流程,适合企业级的可扩展系统
五、LangGraph 企业级客服 Agent
当 RAG 能力落地到真实的企业客服场景,我们需要的不是一个简单的问答机器人,而是一个能处理业务流程、风险控制、人工升级的完整系统,LangGraph 正是用来实现这个目标的工具。
5.1 企业客服的核心:路由,而不是聊天
企业级客服的目标不是「回答得更自然」,而是「在该自动时自动,在不确定时补问,在高风险时转人工」,核心是把用户的请求按业务价值和风险等级做路由:
| 请求类型 | 处理方式 | 适用场景 |
|---|---|---|
| 高并发低风险自助问题 | 自动闭环 | FAQ 回答、密码重置、基础规则查询,规则明确、频率高 |
| 信息不全的问题 | 先追问用户 | 用户没提供订单号、账号,无法直接查询,不能猜测 |
| 需要系统查询的问题 | 调用业务系统 | 订单状态、权限查询、支付状态,需要实时业务数据 |
| 高风险问题 | 直接转人工 | 投诉、重复扣费、法务隐私、情绪激烈的用户,不能自动处理 |
5.2 客服的业务流程
一个成熟的客服系统,本质是一个状态流转的流程,而不是单次的模型调用:
-
意图识别:先判断用户的问题属于哪一类,是 FAQ、订单查询、退款还是高风险投诉
-
信息抽取:抽取用户提供的账号、订单号、时间等关键信息
-
补全信息:如果信息不全,先追问用户,不要猜测
-
路由处理:
-
文档类问题:调用 RAG 检索知识库
-
业务类问题:调用业务系统查询实时数据
-
高风险问题:直接转人工,带上完整的上下文
-
-
生成回复:根据处理结果,生成对应的客服回复
-
人工升级:如果用户仍然不满,或者出现异常,自动升级到人工客服
5.3 LangGraph 的技术落地
LangGraph 把这个业务流程落地成可执行的 Agent,核心是状态流转:
-
状态管理:维护整个会话的状态,包括用户消息、意图、关键信息、检索结果、风险等级
-
节点流转:不同的业务逻辑对应不同的节点,比如意图识别、信息抽取、检索、查询业务系统、转人工
-
路由逻辑:根据当前的状态,决定下一步要跳转到哪个节点,实现业务流程的自动化
-
可审计:整个流程的每一步都有记录,事后可以复盘为什么这么处理,满足企业的审计要求
六、企业级系统的核心要求
一个真正能上线的企业级 RAG / 客服系统,必须满足这些要求:
-
明确的边界:哪些能自动处理,哪些不能,不能什么都让 AI 乱答
-
人工接管机制:升级人工时,要把完整的上下文带过去,用户不用重复讲一遍
-
完整的审计:每一步的处理都有记录,能复盘、能追溯
-
灰度与回滚:支持灰度发布,出问题能快速回滚,不能全量上线出问题
-
运营指标:不是看回答像不像聊天,而是看自动解决率、升级率、响应时间这些业务指标
-
异常处理:系统超时、查询失败时,有对应的降级和回退策略,不会卡住用户
七、落地顺序建议
如果你要落地企业级的 RAG 客服系统,建议按这个顺序推进:
-
先从一个高频低风险的场景切入,比如基础 FAQ 问答,快速跑通最小闭环
-
先定义业务流程和状态路由,再写代码,不要上来就堆模型
-
先接入一个知识源和一个业务系统,验证流程的可行性
-
再补全人工升级、异常处理、运营指标这些企业级能力
-
最后再考虑更复杂的 Agent 编排、多模态这些高级功能
八、总结
RAG 是企业级 AI 应用的基础,它解决了大模型知识过时、幻觉、成本高的核心问题,让大模型能稳定地基于企业私有知识工作。
而 LangGraph 则把 RAG 能力真正落地到了企业的业务流程中,它让我们能把客服系统做成一个可治理、可审计、可升级的业务流程,而不是一个演示用的聊天机器人。
在 AI 时代,你不用死磕算法细节,只需要把业务规则、流程边界定义清楚,剩下的技术实现、状态流转、检索逻辑,都可以交给 AI 来完成,快速把你的想法变成能上线的企业级系统。