打破RAG局限!意图+语义双检索框架来了

1.背景

在数字化转型的浪潮中,智能客服和智能外呼(邀约)已成为企业降本增效、提升客户体验的核心工具。它们通过多轮对话技术,模拟真人交互,实现了全天候的即时答疑、业务办理以及主动的客户触达与需求挖掘,应用前景十分广阔。

目前,主流的智能对话系统通常基于以下典型的技术方案来实现,其核心流程如下图所示:

1.语音输入与转写

系统首先通过ASR技术,将客户的语音实时、准确地转换为文本。

2.语义理解与增强

由于智能客服/邀约中的专业术语较多,因此转换后的文本会经过热词替换等处理(如将"哗啦啦"替换为"货拉拉"),以确保专业术语和关键信息的识别精度,为后续理解打好基础。

3.结合大模型生成应答

综合利用大型语言模型搭建的Agent对话能力,并通过RAG技术,从企业专属知识库中检索最相关信息,最终生成与企业高度相关的回复文本。

4.语音输出

生成的回复文本通过流式TTS 技术,合成自然、流畅的语音,播放给客户,从而完成与客户的一轮交互。

然而,当前系统依然面临着两个核心痛点:

1.回复时仅针对用户当前问题进行回答,忽略了上下文的内容,从而在有的时候出现答非所问,无法正确解答用户的问题

2.部分问题会出现重复回复的情况,人机感强,用户体感差

因此,目前基于LLM的Agent 仍无法像业务专家一样,更好的理解用户潜在意图、多轮对话引导完成任务、回复拟人化、机器的对话能力与人类专家水平之间存在显著差距。

如何才能减少这个gap,让agent 更好的提取、"吸收"业务专家经验,这也是我们一直在思考解决的问题。随着LLM通用能力不断增强,以及RAG技术不断发展成熟,我们和aws联合创新性地提出CID-GraphRAG(对话意图驱动的图检索增强系统),该系统将基于图的意图匹配与语义搜索技术相结合,构建了具有多维度评分机制的双路径检索架构。

2. CID-GraphRAG框架

CID-GraphRAG 创新性融合 Conversation RAG 和 GraphRAG 解决现有多轮客服对话系统中同时维持上下文连贯性与目标导向推进的难题。与传统RAG形式不同,CID-GraphRAG主要有以下优势

1.IntentGraph

与传统Graph不同,我们创新性的提出双层意图图谱,用双层意图节点代替原始节点,从优秀专家的历史对话中动态提取专家意图流转过程,生成该领域专家意图流转图谱

2.双层检索

与传统RAG系统仅依赖语义相似度 (Conversation RAG)或静态知识图谱(GraphRAG)不同,我们创新性地融合意图流转图谱与语义相似性检索,双层检索互相辅助实现自适应检索,提升检索效果和效率

3.融合潜在意图与关键知识的响应生成

基于CID-GraphRAG生成的优秀knowledge作为Few-shot,融合助手和用户意图,结合memory生成更贴合上下文和与用户意图对应的回复意图和话术

CID-GraphRAG 分为构建和推理两阶段,各阶段重点内容见上图

1.构建阶段

针对优秀历史对话采用LLM提取对话意图,构建graph;存储历史意图序列和对话示例

2.推理阶段

  • 意图识别: 与构建阶段相同,采用LLM从对话消息中提取客服、用户的对话意图
  • 双层检索: 根据意图识别中生成的意图,采用双层检索GraphRAG-使用意图匹配和语义内容来查找历史相似对话和客服回复生成最优候选示例
  • 回复生成: 根据双层检索结果作为few-shot,结合用户和助手意图、对话记忆采用LLM生成回复

3. 意图graph构建

3.1 构建步骤

采用人类专家优秀的多轮对话通话数据,针对每通对话(如果有多轮次)我们会针对每轮对话采用LLM识别双端双层意图,根据对话意图流转关系建立对话意图流转的graph。主要包含以下四个关键步骤:

1.语料收集

收集人类专家在真实业务中达成业务目标的多轮对话数据,这些语料覆盖了业务的各种场景、用户不同问法、优秀的回复或解决流程经验等,为后续图构建提供优质的数据基础。

2.数据清理

原始对话数据(尤其是语音转文本ASR数据)中不可避免地存在噪音,如转译错误、无效对话等,在图构建前会先针对原始语料进行数据清洗和预处理。

3.LLM意图提取

采用LLM 对清洗后的每一轮对话进行深度语义理解与分析,分别提取每一轮对话中用户和助理的一级、二级意图。

4.图构建

综合上述多轮对话数据,以意图为节点、意图流转关系为边,搭建对话意图流转图,每个意图下关联其对应优秀话术。

3.2 意图识别(多层意图)

传统GraphRag采用一级意图构建知识图谱,仅使用一级意图在多轮对话场景很容易出现语义冲突,导致答非所问从而用户体验差的问题。

为解决该问题,我们采用了两级意图构建知识图谱,使用LLM进行意图识别和分类,一级意图为主要意图,明确意图主要类别提升识别精确率,每个一级意图下有二级细分意图提升知识精细程度避免混淆。既能把握对话的整体方向,又能洞察用户话语中的细微差别。

两级意图分别的作用在于

1.第一层:Primary Intent (主要意图):

用于明确对话的核心类别,它的作用在于:

  • 快速分类与路由:明确对话的大框架;
  • 提升识别准确率:通过先判断大类别,可以有效缩小后续精确判断的范围,避免不同大类意图间的误判,为整个对话的稳定性打下坚实基础。
  1. 第二层:Secondary Intent (细分意图):

主要意图下的细分意图,主要作用有:

  • 提升知识的精细程度:明确当前对话下的具体分类,给予模型对沟通内容更细致的导航。

  • 有效避免语义混淆 :这是双层设计最具价值的优势之一。同一个词在不同的主要意图下,其细分意图截然不同。例如,用户说 "好的"

    • 预约确认的主要意图 下,"好的"的细分意图可能是 "同意时间"
    • 投诉处理的主要意图 下,"好的"的细分意图则可能是 "接受道歉"
    • 传统系统很可能会将两种"好的"混淆处理,而双层意图识别能结合上下文进行精准区分,从而生成完全不同的、符合场景的回应。

3.3 聚合意图对-提升检索效率

在构建了精细的双层意图体系后,我们进一步提出了"聚合意图对"的创新概念,这是提升我们CID-GraphRAG系统推理效率的关键技术。

我们聚合意图对的主要原因如下:在动态的多轮对话推理过程中,系统需要根据当前轮次的用户二级意图与助理二级意图 ,快速且准确地找出用户所有可能产生的下一个二级意图 。将这对意图进行聚合,形成一个唯一的"意图对"节点,极大地优化了意图图谱的查询与推理逻辑。

4. 双层RAG检索机制

传统的检索增强生成(RAG)通常依赖单一检索路径,要么基于语义相似度,要么基于静态知识图谱,在复杂多轮对话中往往难以兼顾上下文连贯性与目标导向性 。我们的CID-GraphRAG 系统创新性地引入了双层检索机制,将两种检索路径深度融合,提升检索效果和效率。

该机制包含两条互补的检索路径:

1.意图匹配(Intent-based Retrieval Path)

根据意图识别模块生成的当前双端两级意图,在意图流转图(Intent Graph)检索,根据意图出现频率fi查询下一个客服意图。这里采用匹配意图节点,而非匹配文本,可以快速定位到与该意图关联的所有专家经验和话术策略。

它赋予了系统人类专家般的策略性思维 ,确保每一次回复都旨在有效推进对话目标 ,而不是被动应答,从根本上解决了对话"漫无目的"的痛点。

2.语义匹配(Conversation-based Retrieval Path):

这里采用经典的语义检索模式,通过向量化技术,将对话上下文与海量知识库进行相似度匹配,计算余弦相似度si。

它确保了系统生成的回复能够紧密贴合最新的对话语境,保持了对话的自然流畅和即时相关性,避免了答非所问或上下文割裂的问题

3.双层检索加权

通过意图匹配路径和语义匹配路径 两条路径检索出的结果并不会直接使用,而是进行加权评分计算综合分数。其中α为可配置参数,控制意图模式与语义相似度的权重分配。CID-GraphRAG 通过上述方式选择的优秀对话历史和候选意图作为后续回复生成的few-shot,可更好的提取优秀人工经验,显著提升对话中助手回复的准确率和流畅度。

5.回复生成

通过推理的加权评分选取得分最高的 top-k 个优秀历史对话和候选意图,并采用LLM生成回复。prompt构成在传统基础上增加了 user intent 和 CID-GraphRAG 生成的top-k example responses 作为few shot,具体构成见下图。这确保了回复不仅听起来自然,更重要的是它能像一个训练有素的专家一样,每一步都在有策略地引导对话走向成功闭环。

  1. user question:用户问题
  2. memory:当前对话历史记忆
  3. user intent:LLM 生成的用户意图
  4. few shot:采用CID-GraphRAG 双层检索增强生成的top-k 优秀历史对话
  5. Instructions:回复生成的指令

6.效果评估

为了科学全面地评估CID-GraphRAG系统的效果,我们将其与当前主流的几种方案(Direct LLM, Intent RAG, Conversation RAG)在126个测试用例 上进行了详尽的对比实验。实验结果从LLM偏好评估和自动评价指标两个维度,一致且有力地证明了CID-GraphRAG在检索质量与回复生成质量上的双重优越性。

6.1 LLM偏好评估

如图为采用LLM自动评估的结果,CID-GraphRAG的检索质量和回复质量均更优。

1.在检索质量(Retrieval Wins)上:

CID-GraphRAG以73 次的获胜次数遥遥领先,远超Conversation RAG的51次。这证明了我们创新的意图图谱与双层检索机制能够更精准、更稳定地找到与对话上下文最相关的知识片段,从根本上解决了"答不准"的问题。

2.在回复质量(Response Wins)上:

CID-GraphRAG同样以60 次的获胜次数位居第一。这表明,基于高质量检索结果所生成的回复,不仅在准确性上,更在流畅性、策略性和用户体验上获得了评估者的最高认可,有效弥合了与人类专家的体验差距。

6.2 自动评价指标

  1. 检索质量评估:

CID-GraphRAG模型在检索回复生成两大任务上均优于其他基线模型

  • 在传统文本匹配指标上(BLEU, ROUGE) :CID-GraphRAG的各项得分均最高,这证明其生成的回复与人类专家的理想回复在字面匹配度上更高,回复内容更为精准。

  • 在语义相似度指标上(METEOR, BERTSCORE) :CID-GraphRAG同样表现最佳。特别是BERTSCORE(基于BERT模型计算语义相似度)的领先,证明其回复与专家回复在深层语义层面的契合度更高,而不仅仅是表面的词汇匹配。

  1. 响应生成评估:
  • 用于检验系统最终输出的质量。上图表格中的响应生成结果呈现出清晰的性能层级:CID-GraphRAG > Conversation RAG > Intent RAG > Direct LLM,CID-GraphRAG在所有自动评估指标中均保持领先优势。
  • 柱状图展示了LLM作为评判者对响应生成质量的评估结果,CID-GraphRAG以60次胜出领先,Conversation RAG为38次,Direct LLM为37次,Intent RAG为23次。
  • 值得注意的是,尽管Conversation RAG(38次胜出)采用了检索增强技术,但其表现与Direct LLM(37次胜出)几乎持平。而通过添加意图信息构建的CID-GraphRAG获得60次胜出,相较于Conversation RAG实现了58%的相对提升,这充分证明即使引入少量意图组件与语义检索结合也能产生强大的协同效应。

7.总结

综上所述,为解决多轮客服对话系统中性能不佳的挑战,我们提出CID-GraphRAG这一创新框架,该框架将意图驱动图结构与语义相似性检索机制相融合。我们的方法利用知识图谱增强推理能力并实现更精准的检索,同时系统性地整合对话历史以提升语境理解与应答连贯性,从而显著提高答案的质量与相关性。

实验结果表明,在所有评估维度上(包括相关性、实用性、语言风格匹配度、语境适应性和应答独特性),CID-GraphRAG显著优于纯语义和纯意图的基线方法。根据大语言模型评估法的测算,相较于传统对话RAG方法,本框架在应答质量上实现了58%的相对提升。这些发现确立了CID-GraphRAG作为推进会话式AI发展的有效框架,特别适用于同时要求语境相关性和目标导向性的知识密集型领域。

尽管CID-GraphRAG展现出良好效果,仍有一些可探索方向

1.强化学习整合:

当前框架依赖于从历史成功对话中进行监督学习来构建意图转移图。一个有前景的研究方向是引入强化学习技术,基于对话结果动态优化意图转移概率和检索权重参数,这将使系统能够持续改进其检索策略。

2.领域适应性:

目前评估仅聚焦于车辆贴纸客服这一特定领域。后续工作应当系统性地研究该框架在更广泛多轮对话场景中的可迁移性,包括复杂的任务导向型对话以及跨越多个服务领域的跨域交互场景。

【END】

部门:货拉拉/技术中心/智能平台部

作者:张洪龙、杨丹、陈瀚赓、张梦冉

相关推荐
穿条秋裤到处跑1 分钟前
每日一道leetcode(2026.04.10):三个相等元素之间的最小距离 I
算法·leetcode
正在走向自律5 分钟前
企业级数据库存储运维实战:表空间自动创建与存储架构深度优化
运维·数据库·架构·表空间
nlpming11 分钟前
OpenClaw 代码解析
算法
学习永无止境@14 分钟前
MATLAB中矩阵转置
算法·matlab·fpga开发·矩阵
七颗糖很甜15 分钟前
雨滴谱数据深度解析——从原始变量到科学产品的Python实现【下篇】
python·算法·pandas
nlpming15 分钟前
OpenClaw system prompt定义
算法
nlpming15 分钟前
OpenClaw安装配置及简介
算法
爱码小白16 分钟前
MySQL 常用数据类型的系统总结
数据库·python·算法
玛丽莲茼蒿23 分钟前
Leetcode hot100 【中等】括号生成
算法·leetcode·职场和发展
小欣加油25 分钟前
leetcode 128 最长连续序列
c++·算法·leetcode·职场和发展