完全开源的语言模型学习记录--KAG

文章目录

KAG
- 一、研究背景与现有方案缺陷
- - [1. 传统RAG与GraphRAG现存短板](#1. 传统RAG与GraphRAG现存短板)
  - [2. KG天然优势（本文解决痛点的核心抓手）](#2. KG天然优势（本文解决痛点的核心抓手）)
  - [3. KAG核心定位](#3. KAG核心定位)
- 二、KAG整体三层架构
- 三、五大核心创新模块（论文核心技术）
- - [模块1：LLM友好知识表示 LLMFriSPG](#模块1：LLM友好知识表示 LLMFriSPG)
  - [模块2：图谱-文本块双向互索引 Mutual Indexing](#模块2：图谱-文本块双向互索引 Mutual Indexing)
  - [模块3：逻辑形式引导混合推理引擎 Logical Form Solver](#模块3：逻辑形式引导混合推理引擎 Logical Form Solver)
  - [模块4：基于语义推理的知识对齐 Knowledge Alignment](#模块4：基于语义推理的知识对齐 Knowledge Alignment)
  - [模块5：KAG-Model 大模型专项能力增强](#模块5：KAG-Model 大模型专项能力增强)
- 四、实验验证
- - [1. 公开多跳问答数据集评测（HotpotQA、2WikiMultiHopQA、MuSiQue）](#1. 公开多跳问答数据集评测（HotpotQA、2WikiMultiHopQA、MuSiQue）)
  - [2. 产业落地场景实测](#2. 产业落地场景实测)
  - - （1）政务问答（支付宝政务服务，11000份政务文档）
    - （2）医疗健康问答（支付宝健康管家）
- 五、相关工作对比
- 六、现有局限与未来工作
- - [1. 当前局限性](#1. 当前局限性)
  - [2. 未来研究方向](#2. 未来研究方向)
- 七、论文核心贡献总结

KAG: Boosting LLMs in Professional Domains via

Knowledge Augmented Generation

https://github.com/OpenSPG/KAG/blob/master/README_cn.md

https://arxiv.org/pdf/2409.13731

KAG

本文是蚂蚁集团知识图谱团队联合浙江大学提出的KAG（Knowledge Augmented Generation，知识增强生成） 框架，面向专业领域大模型问答场景，融合知识图谱（KG）与检索增强生成（RAG），解决传统RAG逻辑推理弱、数值/时序/规则不敏感、向量相似度与知识推理脱节等痛点；论文开源实现基于OpenSPG，同时在政务、医疗两大产业场景落地验证，多跳问答数据集大幅超越GraphRAG、HippoRAG等主流SOTA方案。

一、研究背景与现有方案缺陷

1. 传统RAG与GraphRAG现存短板

检索依赖向量相似度：仅依靠文本嵌入匹配，无法区分实体、关系、时序、数值逻辑，多跳推理容易丢失关键关联、返回冗余噪声；
符号逻辑能力缺失：LLM原生对数值计算、集合运算、因果/分类/包含等专业规则推理薄弱，法律、医疗、政务等严谨领域易生成不合逻辑答案；
知识层级混乱：原始文本、抽取信息、专家结构化知识混杂，缺少分层管理，无法兼顾「高严谨决策」与「低成本泛化检索」；
知识对齐问题突出：实体同义、上下位、部件整体、因果等语义关系未显式建模，抽取知识碎片化、连通性差，召回不全；
传统GraphRAG局限：仅做实体关系抽取，未区分信息层与专家知识层，缺少文本块与图谱双向索引，无标准化逻辑求解流程。

2. KG天然优势（本文解决痛点的核心抓手）

知识图谱以SPO三元组组织显式语义，支持实体归一消歧、SPARQL/SQL结构化查询、可执行规则推理；可将检索结果作为结构化变量送入LLM完成数值、集合等确定性推理，弥补RAG逻辑短板。

3. KAG核心定位

双向增强LLM与知识图谱，融合符号知识图谱 与向量检索优势，通过五大核心模块解决专业领域问答的精度、逻辑、可解释性问题。

二、KAG整体三层架构

框架分为离线构建、在线求解、模型增强三大组件：

KAG-Builder（离线索引构建）：搭建LLM友好知识表示、图谱与文本块双向互索引，完成知识语义对齐；
KAG-Solver（在线推理求解）：基于逻辑形式（Logical Form）的混合推理引擎，统一检索、图谱推理、语言推理、数值计算；
KAG-Model（底座模型增强）：针对NLU自然语言理解、NLI自然语言推理、NLG自然语言生成三大能力微调底座大模型，支撑全链路任务。

三、五大核心创新模块（论文核心技术）

模块1：LLM友好知识表示 LLMFriSPG

基于DIKW（数据-信息-知识-智慧）金字塔升级原有SPG图谱规范，分层设计解决图谱与大模型适配问题：

三层知识分层存储
- K G c s KG_{cs} KGcs（规范知识层）：专家预定义强约束Schema，精度高、逻辑严谨，但人工成本高、覆盖有限，适用于专业决策；
- K G f r KG_{fr} KGfr（抽取信息层）：自动OpenIE抽取实体、事件、关系，补充知识，连通原始文本；
- R C RC RC（原始文本块层）：分段语义Chunk，提供可溯源原文上下文，保证信息完整度；
三元属性体系 ：实体/事件类型属性分为三类，兼顾专业决策与轻量化检索：
- p t c p_t^c ptc：专家静态预定义属性（高严谨场景）；
- p t f p_t^f ptf：动态临时抽取属性（通用检索场景）；
- p t b p_t^b ptb：系统内置属性（supporting_chunks关联原文、description类型/实例描述、summary摘要、belongTo实例到概念从属关系）；
概念树分离设计 ：实例（实体/事件）与Concept概念树解耦，通过belongTo建立关联，实现实体消歧、语义导航、跨实例对齐。

模块2：图谱-文本块双向互索引 Mutual Indexing

KAG-Builder离线流水线：文档输入→语义分块→信息抽取→概念语义对齐→图谱存储，核心创新双向索引机制：

语义分块：依据文档结构与段落逻辑切分Chunk，Chunk自带全局唯一ID，保留文本上下文连续性；
多粒度信息抽取：无Schema开放抽取+领域Schema约束抽取双模式，自动生成实体描述、摘要、语义类型；支持按文档类型预定义实体结构（如政务事项、药品说明书）；
领域知识注入降噪：迭代注入领域术语、概念，过滤无关噪声；
双存储索引 ：
- 图存储（LPG图库：TuGraph、Neo4j）：存放实体、事件、概念三元组；
- 向量库（Milvus、ES）：存储Chunk、实体文本嵌入；
  通过supporting_chunks建立图谱节点与原始文本双向关联，实现图结构反向检索原文、文本检索跳转图谱。

模块3：逻辑形式引导混合推理引擎 Logical Form Solver

核心解决自然语言模糊逻辑问题，将用户问题拆解为可执行符号化逻辑表达式，集成规划、检索、推理、数值计算，支持多轮反思迭代：

内置5类基础逻辑算子

算子	功能
Retrieval	结构化SPO检索，可约束实体类型、属性、数值、位置，支持稀疏/稠密混合检索
Sort	对检索结果按属性升序/降序排序，截取TopN
Math	LaTeX数学表达式，支持计数、求和、年份差值等数值推理
Deduce	语义推导：蕴含、大于、小于、等于关系判断
Output	汇总多步骤变量输出最终答案

双检索融合策略
- GraphRetrieval：纯图谱结构化查询，精准、速度快，适合有完整三元组的专业规则；
- HybridRetrieval：图谱检索结果+文本块向量检索融合，弥补图谱稀疏缺陷；
多轮反思迭代机制
全局记忆存储每轮子问题、检索结果、中间答案；一轮求解不充分则生成补充子问题，重新拆解逻辑表达式，最多支持N轮迭代（实验取3轮效果最优）；
优势：符号化推理过程可解释，区分「与/或」等模糊语义，统一多跳、数值、比较、规则类复杂问题求解。

模块4：基于语义推理的知识对齐 Knowledge Alignment

解决知识错配、粒度不一致、碎片化三大问题，离线建库、在线检索双阶段生效，定义6类标准化语义关系：synonym同义、isA上下位、isPartOf组成、contains包含、belongTo实例从属、causes因果。

离线索引增强
- 实体消歧融合：基于描述、一跳关系识别同义实体，合并属性、统一别名；
- 实例-概念链接：自动预测实体所属概念，补全belongTo三元组；
- 概念关系补全：完善概念上下位、层级关系，提升图谱连通度；
在线检索增强
当直接实体匹配失败时，通过语义关系传导检索；示例：查询「白内障患者休闲公共场所」，通过<白内障患者,isA,视障人群>关联无障碍博物馆文本，普通向量检索无法命中。

模块5：KAG-Model 大模型专项能力增强

针对KAG全链路任务优化底座LLM，统一离线建库、在线问答所需三大核心能力，同时提出OneGen单步推理方案降低系统复杂度：

NLU自然语言理解增强
构建2万+多指令NLU数据集，采用标签分桶、多格式输入输出、任务描述指令三大策略，强化NER、关系抽取、事件抽取、文本分类能力，在Qwen2、Llama2/3等主流基座上指标显著提升；
NLI自然语言推理增强
构建8000领域概念知识库，训练上下位、同义、因果等语义推理指令，在CMNLI、Hypernym Discovery上位词识别任务远超原生LLM；
NLG自然语言生成增强
- K-LoRA：三元组转文本微调，让模型适配图谱知识输出风格；
- AKGF图谱反馈对齐：以图谱三元组匹配度为奖励微调，抑制生成幻觉，在CMedQA、BioASQ医疗问答提升生成质量；
OneGen单步统一推理
新增检索专用特殊Token，单个模型同时完成嵌入检索与文本生成，消除传统「检索模型+生成模型」流水线误差传递，降低系统部署成本。

四、实验验证

1. 公开多跳问答数据集评测（HotpotQA、2WikiMultiHopQA、MuSiQue）

对比基线：NativeRAG、HippoRAG、IRCoT等主流RAG方案，以DeepSeek-V2为底座：

端到端问答指标（EM/F1）
KAG相比最优基线IRCoT+HippoRAG：HotpotQA F1+12.5%、2Wiki F1+19.1%、MuSiQue F1+12.2%；
检索召回指标
KAG多步检索Recall@5全面领先，得益于互索引+语义对齐带来的图谱连通性提升；
消融实验结论
- 知识对齐模块K_Alignment：大幅提升Top5召回，图谱节点多跳邻居数量显著增加；
- 逻辑求解器LFS：两种模式
  - L F S r e f LFS_{ref} LFSref：优先图谱检索，速度更快，约33%问题可仅靠子图直接回答，F1轻微下降但推理效率提升；
  - L F S H r e f LFSH_{ref} LFSHref：图谱+文本混合检索，问答精度最高，但耗时更长；
- 迭代轮次：3轮反思相比1轮，F1稳定提升，复杂多跳问题覆盖更多。

2. 产业落地场景实测

（1）政务问答（支付宝政务服务，11000份政务文档）

对比NaiveRAG：精度66.5%→91.6%，召回52.6%→71.8%；

依托逻辑形式精准匹配地区、事项、所需材料、办理流程，通过同义/上下位语义对齐兼容各地政务术语差异。

（2）医疗健康问答（支付宝健康管家）

图谱规模：180万实体、40万术语、500万关系，700+医学指标计算DSL规则；
效果指标：通用科普问答准确率>94%，检验指标解读>93%；
能力：疾病、症状、药品、医保、医院查询，数值指标（血压、血糖）触发专家规则自动分级诊断。

五、相关工作对比

DIKW与传统图谱表示：RDF/OWL仅支持二元三元组，LPG缺少分层知识；SPG无LLM适配文本上下文；LLMFriSPG填补分层+双向索引空白；
向量RAG：仅依赖相似度，无显式逻辑，多跳远程知识关联弱；
GraphRAG系列（GraphRAG、HippoRAG、ToG2.0）：仅抽取信息图谱，未区分专家知识层，缺少标准化逻辑求解、知识对齐体系；
传统KBQA：纯图谱推理受限于图谱稀疏、更新慢；KAG采用混合推理，结合文本检索弥补图谱覆盖不足；
LLM与KG双向增强研究：现有工作单向优化，KAG构建完整端到端框架，离线建库、在线推理、模型微调全链路协同增强。

六、现有局限与未来工作

1. 当前局限性

推理阶段大量LLM调用，逻辑分解生成大量中间Token，算力与调用成本高；
复杂问题逻辑规划完全依赖LLM，长链条拆解稳定性不足；
OpenIE自动抽取噪声大，知识对齐仍存在实体融合、事件抽取精度缺陷；
图谱推理与文本检索的速度-精度平衡有待优化。

2. 未来研究方向

轻量化：专用小模型替换LLM完成实体抽取、消歧，降低推理耗时；
规划能力优化：预训练、CoT、指令微调提升逻辑形式拆解稳定性；
知识对齐升级：OneGraph统一多源知识融合；
幻觉抑制：基于图谱硬约束的生成反馈机制；
社区共建：联合OpenKG完善OpenSPG原生KAG开源引擎，降低企业落地门槛。

七、论文核心贡献总结

提出KAG完整专业领域知识服务框架，融合知识图谱与RAG，双向增强LLM与KG；
LLMFriSPG分层知识表示，打通DIKW分层，实现图谱与原始文本双向互索引；
逻辑形式混合推理引擎，统一检索、图谱推理、数值计算、语义推导，可解释多跳求解；
概念驱动的知识对齐体系，离线优化图谱连通性、在线提升检索精准度；
KAG-Model专项微调方案，强化NLU/NLI/NLG，提出OneGen单步检索生成统一模型；
多数据集、两大产业场景充分验证效果，开源OpenSPG配套工具链，为垂直领域专业问答提供落地可行方案。