文章目录
- KAG
-
- 一、研究背景与现有方案缺陷
-
- [1. 传统RAG与GraphRAG现存短板](#1. 传统RAG与GraphRAG现存短板)
- [2. KG天然优势(本文解决痛点的核心抓手)](#2. KG天然优势(本文解决痛点的核心抓手))
- [3. KAG核心定位](#3. KAG核心定位)
- 二、KAG整体三层架构
- 三、五大核心创新模块(论文核心技术)
-
- [模块1:LLM友好知识表示 LLMFriSPG](#模块1:LLM友好知识表示 LLMFriSPG)
- [模块2:图谱-文本块双向互索引 Mutual Indexing](#模块2:图谱-文本块双向互索引 Mutual Indexing)
- [模块3:逻辑形式引导混合推理引擎 Logical Form Solver](#模块3:逻辑形式引导混合推理引擎 Logical Form Solver)
- [模块4:基于语义推理的知识对齐 Knowledge Alignment](#模块4:基于语义推理的知识对齐 Knowledge Alignment)
- [模块5:KAG-Model 大模型专项能力增强](#模块5:KAG-Model 大模型专项能力增强)
- 四、实验验证
-
- [1. 公开多跳问答数据集评测(HotpotQA、2WikiMultiHopQA、MuSiQue)](#1. 公开多跳问答数据集评测(HotpotQA、2WikiMultiHopQA、MuSiQue))
- [2. 产业落地场景实测](#2. 产业落地场景实测)
- 五、相关工作对比
- 六、现有局限与未来工作
-
- [1. 当前局限性](#1. 当前局限性)
- [2. 未来研究方向](#2. 未来研究方向)
- 七、论文核心贡献总结

KAG: Boosting LLMs in Professional Domains via
Knowledge Augmented Generation
KAG
本文是蚂蚁集团知识图谱团队联合浙江大学提出的KAG(Knowledge Augmented Generation,知识增强生成) 框架,面向专业领域大模型问答场景,融合知识图谱(KG)与检索增强生成(RAG),解决传统RAG逻辑推理弱、数值/时序/规则不敏感、向量相似度与知识推理脱节等痛点;论文开源实现基于OpenSPG,同时在政务、医疗两大产业场景落地验证,多跳问答数据集大幅超越GraphRAG、HippoRAG等主流SOTA方案。
一、研究背景与现有方案缺陷
1. 传统RAG与GraphRAG现存短板
- 检索依赖向量相似度:仅依靠文本嵌入匹配,无法区分实体、关系、时序、数值逻辑,多跳推理容易丢失关键关联、返回冗余噪声;
- 符号逻辑能力缺失:LLM原生对数值计算、集合运算、因果/分类/包含等专业规则推理薄弱,法律、医疗、政务等严谨领域易生成不合逻辑答案;
- 知识层级混乱:原始文本、抽取信息、专家结构化知识混杂,缺少分层管理,无法兼顾「高严谨决策」与「低成本泛化检索」;
- 知识对齐问题突出:实体同义、上下位、部件整体、因果等语义关系未显式建模,抽取知识碎片化、连通性差,召回不全;
- 传统GraphRAG局限:仅做实体关系抽取,未区分信息层与专家知识层,缺少文本块与图谱双向索引,无标准化逻辑求解流程。
2. KG天然优势(本文解决痛点的核心抓手)
知识图谱以SPO三元组组织显式语义,支持实体归一消歧、SPARQL/SQL结构化查询、可执行规则推理;可将检索结果作为结构化变量送入LLM完成数值、集合等确定性推理,弥补RAG逻辑短板。
3. KAG核心定位
双向增强LLM与知识图谱,融合符号知识图谱 与向量检索优势,通过五大核心模块解决专业领域问答的精度、逻辑、可解释性问题。
二、KAG整体三层架构
框架分为离线构建、在线求解、模型增强三大组件:
- KAG-Builder(离线索引构建):搭建LLM友好知识表示、图谱与文本块双向互索引,完成知识语义对齐;
- KAG-Solver(在线推理求解):基于逻辑形式(Logical Form)的混合推理引擎,统一检索、图谱推理、语言推理、数值计算;
- KAG-Model(底座模型增强):针对NLU自然语言理解、NLI自然语言推理、NLG自然语言生成三大能力微调底座大模型,支撑全链路任务。
三、五大核心创新模块(论文核心技术)
模块1:LLM友好知识表示 LLMFriSPG
基于DIKW(数据-信息-知识-智慧)金字塔升级原有SPG图谱规范,分层设计解决图谱与大模型适配问题:
- 三层知识分层存储
- K G c s KG_{cs} KGcs(规范知识层):专家预定义强约束Schema,精度高、逻辑严谨,但人工成本高、覆盖有限,适用于专业决策;
- K G f r KG_{fr} KGfr(抽取信息层):自动OpenIE抽取实体、事件、关系,补充知识,连通原始文本;
- R C RC RC(原始文本块层):分段语义Chunk,提供可溯源原文上下文,保证信息完整度;
- 三元属性体系 :实体/事件类型属性分为三类,兼顾专业决策与轻量化检索:
- p t c p_t^c ptc:专家静态预定义属性(高严谨场景);
- p t f p_t^f ptf:动态临时抽取属性(通用检索场景);
- p t b p_t^b ptb:系统内置属性(supporting_chunks关联原文、description类型/实例描述、summary摘要、belongTo实例到概念从属关系);
- 概念树分离设计 :实例(实体/事件)与Concept概念树解耦,通过
belongTo建立关联,实现实体消歧、语义导航、跨实例对齐。
模块2:图谱-文本块双向互索引 Mutual Indexing
KAG-Builder离线流水线:文档输入→语义分块→信息抽取→概念语义对齐→图谱存储,核心创新双向索引机制:
- 语义分块:依据文档结构与段落逻辑切分Chunk,Chunk自带全局唯一ID,保留文本上下文连续性;
- 多粒度信息抽取:无Schema开放抽取+领域Schema约束抽取双模式,自动生成实体描述、摘要、语义类型;支持按文档类型预定义实体结构(如政务事项、药品说明书);
- 领域知识注入降噪:迭代注入领域术语、概念,过滤无关噪声;
- 双存储索引 :
- 图存储(LPG图库:TuGraph、Neo4j):存放实体、事件、概念三元组;
- 向量库(Milvus、ES):存储Chunk、实体文本嵌入;
通过supporting_chunks建立图谱节点与原始文本双向关联,实现图结构反向检索原文、文本检索跳转图谱。
模块3:逻辑形式引导混合推理引擎 Logical Form Solver
核心解决自然语言模糊逻辑问题,将用户问题拆解为可执行符号化逻辑表达式,集成规划、检索、推理、数值计算,支持多轮反思迭代:
-
内置5类基础逻辑算子
算子 功能 Retrieval 结构化SPO检索,可约束实体类型、属性、数值、位置,支持稀疏/稠密混合检索 Sort 对检索结果按属性升序/降序排序,截取TopN Math LaTeX数学表达式,支持计数、求和、年份差值等数值推理 Deduce 语义推导:蕴含、大于、小于、等于关系判断 Output 汇总多步骤变量输出最终答案 -
双检索融合策略
- GraphRetrieval:纯图谱结构化查询,精准、速度快,适合有完整三元组的专业规则;
- HybridRetrieval:图谱检索结果+文本块向量检索融合,弥补图谱稀疏缺陷;
-
多轮反思迭代机制
全局记忆存储每轮子问题、检索结果、中间答案;一轮求解不充分则生成补充子问题,重新拆解逻辑表达式,最多支持N轮迭代(实验取3轮效果最优); -
优势:符号化推理过程可解释,区分「与/或」等模糊语义,统一多跳、数值、比较、规则类复杂问题求解。
模块4:基于语义推理的知识对齐 Knowledge Alignment
解决知识错配、粒度不一致、碎片化三大问题,离线建库、在线检索双阶段生效,定义6类标准化语义关系:synonym同义、isA上下位、isPartOf组成、contains包含、belongTo实例从属、causes因果。
- 离线索引增强
- 实体消歧融合:基于描述、一跳关系识别同义实体,合并属性、统一别名;
- 实例-概念链接:自动预测实体所属概念,补全
belongTo三元组; - 概念关系补全:完善概念上下位、层级关系,提升图谱连通度;
- 在线检索增强
当直接实体匹配失败时,通过语义关系传导检索;示例:查询「白内障患者休闲公共场所」,通过<白内障患者,isA,视障人群>关联无障碍博物馆文本,普通向量检索无法命中。
模块5:KAG-Model 大模型专项能力增强
针对KAG全链路任务优化底座LLM,统一离线建库、在线问答所需三大核心能力,同时提出OneGen单步推理方案降低系统复杂度:
- NLU自然语言理解增强
构建2万+多指令NLU数据集,采用标签分桶、多格式输入输出、任务描述指令三大策略,强化NER、关系抽取、事件抽取、文本分类能力,在Qwen2、Llama2/3等主流基座上指标显著提升; - NLI自然语言推理增强
构建8000领域概念知识库,训练上下位、同义、因果等语义推理指令,在CMNLI、Hypernym Discovery上位词识别任务远超原生LLM; - NLG自然语言生成增强
- K-LoRA:三元组转文本微调,让模型适配图谱知识输出风格;
- AKGF图谱反馈对齐:以图谱三元组匹配度为奖励微调,抑制生成幻觉,在CMedQA、BioASQ医疗问答提升生成质量;
- OneGen单步统一推理
新增检索专用特殊Token,单个模型同时完成嵌入检索与文本生成,消除传统「检索模型+生成模型」流水线误差传递,降低系统部署成本。
四、实验验证
1. 公开多跳问答数据集评测(HotpotQA、2WikiMultiHopQA、MuSiQue)
对比基线:NativeRAG、HippoRAG、IRCoT等主流RAG方案,以DeepSeek-V2为底座:
- 端到端问答指标(EM/F1)
KAG相比最优基线IRCoT+HippoRAG:HotpotQA F1+12.5%、2Wiki F1+19.1%、MuSiQue F1+12.2%; - 检索召回指标
KAG多步检索Recall@5全面领先,得益于互索引+语义对齐带来的图谱连通性提升; - 消融实验结论
- 知识对齐模块K_Alignment:大幅提升Top5召回,图谱节点多跳邻居数量显著增加;
- 逻辑求解器LFS:两种模式
- L F S r e f LFS_{ref} LFSref:优先图谱检索,速度更快,约33%问题可仅靠子图直接回答,F1轻微下降但推理效率提升;
- L F S H r e f LFSH_{ref} LFSHref:图谱+文本混合检索,问答精度最高,但耗时更长;
- 迭代轮次:3轮反思相比1轮,F1稳定提升,复杂多跳问题覆盖更多。
2. 产业落地场景实测
(1)政务问答(支付宝政务服务,11000份政务文档)
对比NaiveRAG:精度66.5%→91.6%,召回52.6%→71.8%;
依托逻辑形式精准匹配地区、事项、所需材料、办理流程,通过同义/上下位语义对齐兼容各地政务术语差异。
(2)医疗健康问答(支付宝健康管家)
- 图谱规模:180万实体、40万术语、500万关系,700+医学指标计算DSL规则;
- 效果指标:通用科普问答准确率>94%,检验指标解读>93%;
- 能力:疾病、症状、药品、医保、医院查询,数值指标(血压、血糖)触发专家规则自动分级诊断。
五、相关工作对比
- DIKW与传统图谱表示:RDF/OWL仅支持二元三元组,LPG缺少分层知识;SPG无LLM适配文本上下文;LLMFriSPG填补分层+双向索引空白;
- 向量RAG:仅依赖相似度,无显式逻辑,多跳远程知识关联弱;
- GraphRAG系列(GraphRAG、HippoRAG、ToG2.0):仅抽取信息图谱,未区分专家知识层,缺少标准化逻辑求解、知识对齐体系;
- 传统KBQA:纯图谱推理受限于图谱稀疏、更新慢;KAG采用混合推理,结合文本检索弥补图谱覆盖不足;
- LLM与KG双向增强研究:现有工作单向优化,KAG构建完整端到端框架,离线建库、在线推理、模型微调全链路协同增强。
六、现有局限与未来工作
1. 当前局限性
- 推理阶段大量LLM调用,逻辑分解生成大量中间Token,算力与调用成本高;
- 复杂问题逻辑规划完全依赖LLM,长链条拆解稳定性不足;
- OpenIE自动抽取噪声大,知识对齐仍存在实体融合、事件抽取精度缺陷;
- 图谱推理与文本检索的速度-精度平衡有待优化。
2. 未来研究方向
- 轻量化:专用小模型替换LLM完成实体抽取、消歧,降低推理耗时;
- 规划能力优化:预训练、CoT、指令微调提升逻辑形式拆解稳定性;
- 知识对齐升级:OneGraph统一多源知识融合;
- 幻觉抑制:基于图谱硬约束的生成反馈机制;
- 社区共建:联合OpenKG完善OpenSPG原生KAG开源引擎,降低企业落地门槛。
七、论文核心贡献总结
- 提出KAG完整专业领域知识服务框架,融合知识图谱与RAG,双向增强LLM与KG;
- LLMFriSPG分层知识表示,打通DIKW分层,实现图谱与原始文本双向互索引;
- 逻辑形式混合推理引擎,统一检索、图谱推理、数值计算、语义推导,可解释多跳求解;
- 概念驱动的知识对齐体系,离线优化图谱连通性、在线提升检索精准度;
- KAG-Model专项微调方案,强化NLU/NLI/NLG,提出OneGen单步检索生成统一模型;
- 多数据集、两大产业场景充分验证效果,开源OpenSPG配套工具链,为垂直领域专业问答提供落地可行方案。