论文精读(五):面向链接预测的知识图谱表示学习方法综述

笔者链接:扑克中的黑桃A

专栏链接:论文精读

本文关键词知识图谱; 表示学习; 链接预测; 多元关系; 超关系


诸位技术同仁:

本系列将系统精读的方式,深入剖析计算机科学顶级期刊/会议论文,聚焦前沿突破的核心机理与工程实现。

通过严谨的学术剖析,解耦研究范式、技术方案及实证方法,揭示创新本质。我们重点关注理论-工程交汇点的技术跃迁,提炼可迁移的方法论锚点,助力诸位的技术实践与复杂问题攻坚,共推领域持续演进。

每日一句

所有的忧伤都是过往,

当时间慢慢沉淀,

你会发现,

自己的快乐比想象的多得多。


目录

每日一句

文献来源

一.知识图谱与链接预测的基础认知

[1.知识图谱:结构化的 "知识通讯录"](#1.知识图谱:结构化的 “知识通讯录”)

[2. 链接预测:补全 "知识地图" 的核心任务](#2. 链接预测:补全 “知识地图” 的核心任务)

对称关系

反对称关系

传递关系

[3. 表示学习:让计算机 "理解" 知识的桥梁](#3. 表示学习:让计算机 “理解” 知识的桥梁)

[二.知识表示形式:从简单到复杂的 "知识编码" 演进](#二.知识表示形式:从简单到复杂的 “知识编码” 演进)

[1. 二元关系:知识表示的 "基础句型"](#1. 二元关系:知识表示的 “基础句型”)

数学建模

优缺点分析

[2. 多元关系:表达复杂知识的 "长句型"](#2. 多元关系:表达复杂知识的 “长句型”)

数学建模

优缺点分析

[3. 超关系:主次分明的复杂知识表示](#3. 超关系:主次分明的复杂知识表示)

数学建模

优缺点分析

与知识超图的区别

[三.面向二元关系的表示学习模型:四类经典 "建模方法"](#三.面向二元关系的表示学习模型:四类经典 “建模方法”)

[1. 平移距离模型:基于 "空间平移" 的语义建模](#1. 平移距离模型:基于 “空间平移” 的语义建模)

[(1) 经典模型:TransE](#(1) 经典模型:TransE)

[(2) 优化方向与衍生模型](#(2) 优化方向与衍生模型)

拓展映射空间

改进映射方式

区分向量表示

附加约束信息

[2. 张量分解模型:基于 "矩阵分解" 的关联捕捉](#2. 张量分解模型:基于 “矩阵分解” 的关联捕捉)

[(1) 经典模型:RESCAL](#(1) 经典模型:RESCAL)

[(2) 优化方向与衍生模型](#(2) 优化方向与衍生模型)

施加矩阵约束

优化分解形式

[3. 传统神经网络模型:基于 "特征提取" 的非线性建模](#3. 传统神经网络模型:基于 “特征提取” 的非线性建模)

[(1) 卷积神经网络(CNN)](#(1) 卷积神经网络(CNN))

[(2) 其他神经网络模型](#(2) 其他神经网络模型)

[4. 图神经网络模型:基于 "信息传播" 的结构建模](#4. 图神经网络模型:基于 “信息传播” 的结构建模)

[(1) 核心思想](#(1) 核心思想)

[(2) 经典模型](#(2) 经典模型)

[(3) 与其他模型的区别](#(3) 与其他模型的区别)

四.面向多元化关系的表示学习模型:从二元到多元的扩展

[1. 多元关系的表示学习模型](#1. 多元关系的表示学习模型)

[(1) 平移距离模型的扩展](#(1) 平移距离模型的扩展)

[(2) 张量分解模型的扩展](#(2) 张量分解模型的扩展)

[(3) 传统神经网络模型的扩展](#(3) 传统神经网络模型的扩展)

[2. 超关系的表示学习模型](#2. 超关系的表示学习模型)

[(1) 传统神经网络模型的扩展](#(1) 传统神经网络模型的扩展)

[(2) 图神经网络模型的扩展](#(2) 图神经网络模型的扩展)

[五.实验对比与分析:不同模型的 "实战表现"](#五.实验对比与分析:不同模型的 “实战表现”)

[1. 常用数据集](#1. 常用数据集)

[(1) 二元关系数据集](#(1) 二元关系数据集)

[(2) 多元关系数据集](#(2) 多元关系数据集)

[(3) 超关系数据集](#(3) 超关系数据集)

[2. 评测指标](#2. 评测指标)

[3. 实验结果分析](#3. 实验结果分析)

[(1) 二元关系模型对比](#(1) 二元关系模型对比)

[(2) 多元关系模型对比](#(2) 多元关系模型对比)

[(3) 超关系模型对比](#(3) 超关系模型对比)

[(4) 关键结论](#(4) 关键结论)

六.未来研究方向:挑战与机遇

[1. 模型优化:提升可解释性与可扩展性](#1. 模型优化:提升可解释性与可扩展性)

[2. 知识表示形式:融合更多结构与信息](#2. 知识表示形式:融合更多结构与信息)

[3. 问题作用域:针对特定场景定制模型](#3. 问题作用域:针对特定场景定制模型)

七.总结


文献来源

杜雪盈, 刘名威, 沈立炜, 彭鑫. 面向链接预测的知识图谱表示学习方法综述.

DOI:10.13328/j.cnki.jos.006902

软件学报, 2024, 35(1): 87--117.

已标明出处,如有侵权请联系笔者。


在信息爆炸的时代,我们每天都会接触到海量数据,但这些数据大多以零散的文字、图片等形式存在,就像散落的拼图碎片。知识图谱(Knowledge Graph, KG)的出现,将这些碎片拼接成一张结构化的 "知识地图"------ 实体是地图上的城市,关系是连接城市的道路,让我们能清晰看到知识之间的关联。然而,这张 "地图" 却常常存在 "道路缺失" 的问题:全球知名的知识图谱 FreeBase 中,70% 的人物实体没有出生地信息,99% 缺失种族信息;Wikidata 虽覆盖更广,但仍有大量复杂关系未被记录。这种不完整性就像地图上关键路段的缺失,严重影响了知识的应用价值 ------ 在信息检索中,可能漏掉相关结果;在问答系统中,无法回答涉及未记录关系的问题

为了补全这张 "知识地图",链接预测(Link Prediction)技术应运而生。它能根据已有 "道路" 推测缺失的 "连接",比如根据 "(北京,是首都,中国)" 和 "(中国,位于,亚洲)",推测出 "(北京,位于,亚洲)" 这一缺失关系。而实现链接预测的核心,是知识图谱表示学习(Knowledge Graph Representation Learning)------ 将实体和关系从文字符号转换为计算机可计算的数值向量,就像把地图上的城市坐标化,让计算机能通过坐标计算距离和方向,从而推测未知的 "道路"

就像量子计算系统有 "应用→系统软件→体系结构→硬件" 的完整链条,知识图谱要从 "零散数据" 变成 "可用工具",也离不开 "构建图谱→发现缺失→补全链接" 的核心流程。咱们沿着 "是什么→缺什么→怎么补" 的思路,逐个拆解。

本文将系统解读面向链接预测的知识图谱表示学习方法,从知识图谱的基本构成与链接预测的核心目标出发,拆解二元关系、多元关系、超关系三种知识表示形式,详解平移距离、张量分解、传统神经网络、图神经网络四类表示学习模型的原理与演化,并通过实验对比揭示不同模型的性能差异,最后展望未来研究方向。通过本文,读者将全面掌握知识图谱补全的核心技术,理解计算机如何 "读懂" 知识并推测未知关联。

一.知识图谱与链接预测的基础认知

1.知识图谱:结构化的 "知识通讯录"

知识图谱本质是存 "谁与谁有啥关联" 的数据库,由实体 (图的节点)和关系(图的边)组成,比如 "(李白,创作,《静夜思》)""(《静夜思》,属于,诗歌)"。

  • 经典类比:就像经典计算机里的 "关系型数据库",实体是 "数据表的行",关系是 "数据表的列",存的是结构化的 "实体 - 关系 - 实体" 三元组,而非杂乱的文本段落。
  • 人话类比:就像你手机里的通讯录 ------"张三""李四" 是联系人(实体),"同事""大学同学""同住一个小区" 是关系,你能一眼看清谁和谁有关联,而不是把所有名字堆在无分类的备忘录里。

目前,学术界和工业界已构建了多个大规模知识图谱:

FreeBase

由谷歌构建的开放知识图谱,包含大量实体和关系,但存在严重的信息缺失,如前文所述的人物属性缺失问题。

Wikidata

维基百科支持的协作式知识图谱,数据更全面,且允许用户持续编辑补充,就像一张不断更新的 "活地图"。

DBpedia

从维基百科中抽取结构化知识形成的图谱,聚焦于实体的属性和分类,如 "(北京,首都,中国)""(北京,人口,2154 万)"。

YAGO

融合维基百科和 WordNet 的知识图谱,强调实体的时间和空间属性,如 "(爱因斯坦,出生于,1879 年)"。

但现有图谱都有 "通讯录备注不全" 的问题:

FreeBase 中 70% 的人物实体没 "出生地" 信息,99% 缺失 "种族" 信息;

连 "(鱼,生活在,水)" 这种常识,Wikidata 都可能漏记。

......

这就像你通讯录里有人没填手机号、有人没标 "所属部门",真要联系或找人时,总会 "卡壳"。

这种缺失会导致知识图谱在应用中 "力不从心"------ 比如智能问答系统无法回答 "鱼生活在哪里?",推荐系统无法基于未记录的关系推荐相关内容。

2. 链接预测:补全 "知识地图" 的核心任务

链接预测是知识图谱补全(Knowledge Graph Completion)的核心任务,目标是根据知识图谱中已有的实体和关系,预测缺失的实体或关系。具体可分为两类子任务:

  • 实体预测:已知关系和部分实体,预测缺失的实体。例如已知 "(?, 创作,《静夜思》)",预测头实体 "李白";已知 "(李白,创作,?)",预测尾实体 "《静夜思》"。这就像已知 "航线" 和 "终点",推测 "起点";或已知 "起点" 和 "航线",推测 "终点"。
  • 关系预测:已知头实体和尾实体,预测它们之间的关系。例如已知 "(李白,?, 《静夜思》)",预测关系 "创作";已知 "(北京,?, 中国)",预测关系 "是首都"。这就像已知 "起点" 和 "终点",推测连接它们的 "航线类型"。

图2左侧展示实体预测场景(用 "?" 标记缺失的头实体),右侧展示关系预测场景(用 "?" 标记缺失的关系),通过具体案例(如 "(?,导演,《流浪地球》)" 预测 "郭帆")直观呈现两类任务的区别。

链接预测的实现依赖于对知识图谱中 "关系模式" 的挖掘。知识图谱中存在多种典型的关系模式,例如:

对称关系

若 "(A,朋友,B)" 成立,则 "(B,朋友,A)" 也成立,如 "朋友""同事"。

反对称关系

若 "(A,父亲,B)" 成立,则 "(B,父亲,A)" 一定不成立,如 "父子""上下级"。

传递关系

若 "(A,属于,B)" 和 "(B,属于,C)" 成立,则 "(A,属于,C)" 也成立,如 "国家 - 省份 - 城市" 的隶属关系。

表示学习模型通过捕捉这些模式,实现对缺失链接的预测。例如,对于传递关系,模型会学习到 "头实体向量 + 关系向量 1 + 关系向量 2 ≈ 尾实体向量" 的规律,从而推测多步关系。

3. 表示学习:让计算机 "理解" 知识的桥梁

知识图谱中的实体和关系以符号形式存在(如 "李白""创作"),而计算机无法直接处理符号之间的语义关联。表示学习的作用,就是将这些符号转换为低维稠密的数值向量(Embedding),让向量之间的运算能够反映语义关系,就像用经纬度表示城市位置,通过经纬度计算距离来反映城市间的实际距离。

表示学习的核心目标是:对于知识图谱中存在的三元组(h, r, t),其向量表示应满足某种 "合理性条件",而对于不存在的三元组,则不满足该条件。例如,TransE 模型要求 "h + r ≈ t",即头实体向量与关系向量的和应接近尾实体向量;ComplEx 模型则通过复数向量的运算捕捉实体与关系的交互。

表示学习与链接预测的关系密不可分:

  • 表示学习是链接预测的基础:只有将实体和关系转换为向量,计算机才能通过数值计算推测缺失链接,就像只有将城市坐标化,才能通过坐标计算路线。
  • 链接预测是表示学习的重要应用:表示学习的效果通常通过链接预测的准确率来评估,一个好的表示模型应能准确预测缺失的实体或关系,就像准确的坐标系统能帮助我们找到最短路线。

通过表示学习,知识图谱的符号化知识被转化为向量空间中的数值关系,为链接预测、知识推理、信息检索等任务提供了可计算的基础。

二.知识表示形式:从简单到复杂的 "知识编码" 演进

知识的复杂性决定了其表示形式的多样性。从最初的二元关系,到能表达复杂关联的多元关系和超关系,知识表示形式的演进反映了对现实世界知识的更精准刻画。

1. 二元关系:知识表示的 "基础句型"

二元关系是知识图谱中最基本、最常用的表示形式,用三元组(h, r, t)描述 "头实体 - 关系 - 尾实体" 的关联,就像语言中的 "主谓宾" 短句,结构简单且易于处理。例如:

  • "(北京,是首都,中国)":头实体 "北京",关系 "是首都",尾实体 "中国"。
  • "(爱因斯坦,提出,相对论)":头实体 "爱因斯坦",关系 "提出",尾实体 "相对论"。

数学建模

在二元关系中,链接预测的目标是补全不完整的三元组,具体分为三种情况:

  • 头实体缺失:(?, r, t),需预测 h,如 "(?, 发明,电灯)"→"爱迪生"。
  • 尾实体缺失:(h, r, ?),需预测 t,如 "(牛顿,发现,?)"→"万有引力"。
  • 关系缺失:(h, ?, t),需预测 r,如 "(地球,?, 太阳系)"→"属于"。

模型通过学习实体和关系的向量表示,对所有可能的候选实体或关系进行评分,评分最高的即为预测结果。例如,对于(?, 发明,电灯),模型会计算每个实体 h 的向量与 "发明" 向量 r 的和,与 "电灯" 向量 t 的距离,距离最小的 h 即为预测答案。

优缺点分析

  • 优点:结构简单,易于建模和计算,是目前知识图谱中最主流的表示形式。现有大多数表示学习模型都是基于二元关系设计的,如 TransE、DistMult 等。
  • 缺点 :表达能力有限,无法刻画包含多个实体或关系的复杂知识。例如,"在 2023 年的电影《流浪地球 2》中,吴京饰演刘培强" 这一事实,包含实体 "吴京""《流浪地球 2》""2023 年""刘培强" 和关系 "参演""上映时间""饰演角色",若拆分为多个二元三元组:
    • (吴京,参演,《流浪地球 2》)
    • (《流浪地球 2》,上映时间,2023 年)
    • (吴京,饰演角色,刘培强)
      会丢失 "参演电影""上映时间""饰演角色" 之间的关联信息,就像把一个完整的长句拆成零散的短句,失去了上下文联系。

2. 多元关系:表达复杂知识的 "长句型"

为了表达包含 3 个及以上实体或多个关系的复杂知识,多元关系(N-ary Relations)表示形式应运而生。它用一组 "角色 - 键值对"(Role-Value Pairs)描述知识,其中 "角色" 对应关系,"键值" 对应实体,就像带多个修饰语的长句,能完整呈现知识的细节。例如,上述电影案例的多元关系表示为:

{演员:吴京,电影: 《流浪地球 2》, 上映时间: 2023 年,饰演角色:刘培强}

数学建模

多元关系的一般形式为 {r₁: v₁, r₂: v₂, ..., rₙ: vₙ},其中 n≥3(元数)。链接预测任务需补全缺失的角色或键值:

  • 角色缺失:{r₁: v₁, ..., ?: vₙ},需预测缺失的角色 r,如 {演员:吴京,电影: 《流浪地球 2》, ?: 刘培强}→"饰演角色"。
  • 键值缺失:{r₁: v₁, ..., rₙ: ?},需预测缺失的键值 v,如 {演员:吴京,电影: ?, 饰演角色:刘培强}→《流浪地球 2》。

多元关系的建模需考虑角色与键值之间的关联,以及不同角色 - 键值对之间的交互。例如,"演员" 和 "饰演角色" 的键值通常存在对应关系(特定演员在特定电影中饰演特定角色),模型需捕捉这种关联以提高预测准确率。

优缺点分析

  • 优点:能完整表达复杂知识,保留多个实体和关系之间的关联信息,避免了二元关系拆分导致的语义丢失。
  • 缺点:破坏了三元组的结构化形式,所有角色 - 键值对平行存储,缺少主次之分。例如,在 {演员:吴京,电影: 《流浪地球 2》, 上映时间: 2023 年} 中,"演员 - 电影" 是核心关系,"上映时间" 是辅助信息,但多元关系将它们平等对待,可能导致模型无法聚焦核心关联,就像长句中修饰语过多掩盖了主干意思。

3. 超关系:主次分明的复杂知识表示

超关系(Hyper-relations)是多元关系的优化形式,它保留一个主三元组(h, r, t)作为核心知识,其余信息作为 "限定词键值对"(Qualifier Pairs)附加在主三元组上,整体表示为(h, r, t, Q),其中 Q={(q₁: v₁), ..., (qₙ: vₙ)} 是辅助信息,就像 "主题句 + 注释" 的结构,主次分明。例如,上述电影案例的超关系表示为:

(吴京,参演,《流浪地球 2》,{上映时间: 2023 年,饰演角色:刘培强})

数学建模

超关系以主三元组为核心,限定词为辅助,链接预测主要针对主三元组的缺失进行补全,同时利用限定词信息提高预测精度:

  • 头实体缺失:(?, r, t, Q),如(?, 参演,《流浪地球 2》, {饰演角色:刘培强})→"吴京"。
  • 尾实体缺失:(h, r, ?, Q),如(吴京,参演,?, {上映时间: 2023 年})→《流浪地球 2》。
  • 关系缺失:(h, ?, t, Q),如(吴京,?, 《流浪地球 2》, {饰演角色:刘培强})→"参演"。

限定词的作用是提供上下文约束,缩小预测范围。例如,预测 "(?, 参演,《流浪地球 2》)" 时,若已知限定词 "饰演角色:刘培强",模型可更精准地定位到 "吴京",而不是其他参演演员。

优缺点分析

  • 优点:既保留了核心语义(主三元组),又包含了辅助信息(限定词),知识表示的准确性和完整性优于二元关系和多元关系。同时,主三元组的结构与现有二元关系模型兼容,便于模型扩展。
  • 缺点:对模型的建模能力要求更高,需要区分主三元组与限定词的关联,以及不同限定词之间的交互。例如,模型需理解 "饰演角色" 限定词与主三元组 "参演" 关系的强关联性,而 "上映时间" 限定词的关联性较弱。

图三,以 "本尼迪克特・康伯巴奇在《模仿游戏》中饰演阿兰・图灵并获奥斯卡提名" 为例,分别展示二元关系(拆分为 3 个三元组)、多元关系(4 个角色 - 键值对)、超关系(主三元组 + 2 个限定词)的表示方式,直观呈现三者在语义保留和结构清晰度上的差异。

与知识超图的区别

超图(Hypergraph)中每条边可连接多个节点,知识超图用一条超边连接多元知识中的所有实体,但未区分主次关系,更接近多元关系的表示形式。而超关系通过主三元组明确核心关联,限定词辅助描述,在语义表达上更精准,因此更适合链接预测任务。

三.面向二元关系的表示学习模型:四类经典 "建模方法"

在深入剖析各类表示学习模型的细节前,我们先通过 "知识图谱表示学习技术划分框架",从时间线与模型类别两个角度,直观把握技术发展的整体脉络与分类逻辑。

图 1横向划分 "平移距离模型""张量分解模型""神经网络模型""图神经网络模型" 四大类,纵向按年份(2012---2021)排列关键模型,并通过符号(方块、三角形、圆形)区分 "二元关系模型""多元关系模型""超关系模型",同时用颜色标注 "拓展映射空间""附加约束 / 信息""优化卷积处理方式" 等技术优化方向,为后续具体模型的讲解提供全局视角。

接下来,我们将依次详解这四类面向二元关系的表示学习模型的原理、优化与衍生。

二元关系是知识图谱的基础,针对二元关系的表示学习模型已形成四大类:平移距离模型、张量分解模型、传统神经网络模型和图神经网络模型。这些模型从不同角度建模实体与关系的关联,各有优劣。

1. 平移距离模型:基于 "空间平移" 的语义建模

平移距离模型受词向量(Word2Vec)中 "平移不变性" 现象的启发,将关系视为头实体到尾实体的 "平移向量",核心思想是 "头实体向量 + 关系向量 ≈ 尾实体向量",就像在地图上,"起点坐标 + 路线向量 ≈ 终点坐标"。

(1) 经典模型:TransE

TransE 是 2013 年提出的首个平移距离模型,它将每个实体和关系映射到低维向量空间,对于三元组(h, r, t),要求 h + r ≈ t。其评分函数定义为:

f(h,r,t)=∣∣h+r−t∣∣L1​/L2​​

其中,||・|| 表示 L₁或 L₂范数(距离),评分越低,三元组越合理。例如,对于 "(北京,到,上海)",TransE 学习到的向量应满足 "北京 + 到 ≈ 上海"。

TransE 的优点是简单高效,参数少,适合大规模知识图谱;但缺点是无法处理复杂关系,如 1-N(一个头实体对应多个尾实体,如 "母亲 - 子女")、N-1(多个头实体对应一个尾实体,如 "子女 - 父亲")和 N-N(多对多关系,如 "学生 - 老师")。例如,对于 "(小明,母亲,李华)" 和 "(小红,母亲,李华)",TransE 会要求 "小明 + 母亲 ≈ 李华" 和 "小红 + 母亲 ≈ 李华",导致 "小明 ≈ 小红",显然不合理。

(2) 优化方向与衍生模型

为解决 TransE 的缺陷,研究者从多个方向进行优化:

拓展映射空间
  • TransH (2014):将实体和关系映射到关系专属的超平面上,头实体 h 和尾实体 t 在超平面上的投影 h⊥、t⊥满足 h⊥ + dᵣ ≈ t⊥(dᵣ是超平面上的平移向量)。超平面通过法线向量 wᵣ定义,投影计算为:
    h⊥=h−wrTh⋅wr
    t⊥=t−wrTt⋅wr
    评分函数为:f(h,r,t)=∣∣h⊥+dr−t⊥∣∣22
    TransH 通过超平面区分不同关系的映射空间,能更好处理 1-N 等复杂关系,就像为不同类型的路线(如公路、铁路)设置不同的平面地图。
  • TransR (2015):进一步将实体空间与关系空间分离,每个关系 r 对应一个投影矩阵 Mᵣ,实体向量通过 Mᵣ投影到关系空间后再进行平移:
    hr=h⋅Mr
    tr=t⋅Mr
    评分函数为:f(h,r,t)=∣∣hr+r−tr∣∣22
    例如,"苹果" 作为水果和公司时,在 "属于 - 水果" 和 "属于 - 公司" 关系空间中的投影不同,避免了语义混淆。
  • TransD (2015):针对 TransR 中头尾实体共享投影矩阵的问题,为头实体和尾实体分别设计投影矩阵 Mᵣₕ和 Mᵣₜ,提高建模灵活性:
    hr=h⋅Mrh
    tr=t⋅Mrt
    评分函数与 TransR 类似。
改进映射方式
  • TorusE(2018):将向量空间从欧氏空间改为环形曲面(Torus),利用环形空间的周期性解决长距离平移问题,评分函数考虑环形空间中的最短距离。
  • RotatE(2019):将向量空间扩展到复数域,将关系视为旋转操作,即 h ⊙ r ≈ t(⊙为元素级乘法),其中 r 的模长为 1(旋转向量特性)。这种旋转操作能自然建模对称关系(旋转 0 度)、反对称关系(旋转 180 度)和逆关系(旋转相反角度),例如 "朋友" 关系是对称的(r 旋转 0 度,h⊙r = h ≈ t,t⊙r = t ≈ h),"父子" 关系是反对称的(r 旋转 180 度,h⊙r ≈ t 则 t⊙r ≈ -h ≠ h)。

图 5 为 "旋转映射模型示意图",其中(a)是TorusE 的环形映射空间示意图 ,展示实体向量在圆环表面的分布与平移逻辑;(b)是RotatE 的复数域旋转示意图,直观呈现 "头实体向量h经关系r旋转后得到hr,且hr与尾实体向量t的距离越近,三元组越合理" 的核心思想。通过示意图,能更清晰理解 TorusE 的 "环形空间平移" 与 RotatE 的 "复数域旋转" 技术细节。

区分向量表示
  • TranSparse(2016):针对关系的异质性(不同关系连接的实体对数差异大),用稀疏度不同的矩阵表示关系,复杂关系(连接实体多)用稠密矩阵,简单关系用稀疏矩阵,减少参数冗余。
附加约束信息
  • CTransR(2015):将同一关系的实体对聚类,为每个聚类学习专属关系向量,增强对关系细分语义的建模。
  • PTransE(2015):引入关系路径信息,例如 "h → r1 → e → r2 → t" 可推出 "h → r → t",通过路径约束增强预测准确性。

图 4直观展示 TransE(同一空间平移)、TransH(超平面投影)、TransR(实体 - 关系空间分离)、TransD(头尾实体分别投影)的空间映射差异,帮助理解模型的演进逻辑。

2. 张量分解模型:基于 "矩阵分解" 的关联捕捉

张量分解模型将知识图谱视为一个三维张量(实体 × 实体 × 关系),其中张量元素 T (h, r, t)=1 表示三元组(h, r, t)存在,T (h, r, t)=0 表示不存在。通过分解张量,得到实体和关系的低维向量表示,就像将一个复杂的魔方拆成小方块,通过小方块的组合还原魔方结构。

(1) 经典模型:RESCAL

RESCAL 是 2011 年提出的首个张量分解模型,它将三元组(h, r, t)表示为实体向量与关系矩阵的双线性乘积:

f(h,r,t)=hTMr​t

其中,Mᵣ是关系 r 的 d×d 矩阵,h 和 t 是 d 维实体向量。该模型通过矩阵 Mᵣ捕捉实体 h 和 t 之间的交互强度,评分越高,三元组越合理。

RESCAL 的优点是表达能力强,能建模多种关系类型;但缺点是参数多(每个关系有 d² 个参数),计算复杂度高,难以应用于大规模知识图谱。

(2) 优化方向与衍生模型

为降低复杂度并增强建模能力,研究者提出了多种优化模型:

施加矩阵约束
  • DistMult (2015):简化 Mᵣ为对角矩阵(Mᵣ=diag (r)),评分函数变为:
    f(h,r,t)=hTdiag(r)t=∑i=1dhiriti
    参数数量从 d² 减少到 d,计算效率大幅提升。但对角矩阵的对称性导致模型只能处理对称关系(h^T diag (r) t = t^T diag (r) h),无法建模反对称关系(如 "父子")。
  • ComplEx (2016):引入复数向量解决 DistMult 的对称性问题,实体和关系向量为复数域向量,评分函数为:
    f(h,r,t)=Re(hTdiag(r)tˉ)
    其中,tˉ是 t 的共轭复数,Re (・) 表示取实部。复数运算打破了对称性(h^T diag (r) tˉ ≠ t^T diag(r) hˉ),使模型能处理反对称关系。
  • ANALOGY(2017):要求关系矩阵 Mᵣ是正规矩阵(MᵣMᵣᵀ = MᵣᵀMᵣ),并满足关系组合的可交换性,增强对类比推理的支持,例如 "国王 - 男人 = 女王 - 女人" 的类比关系。
优化分解形式
  • HolE (2016):用循环关联运算(Circular Correlation)压缩实体交互,h * t 的结果与关系向量 r 做点积:
    f(h,r,t)=(h∗t)Tr
    循环关联运算可视为矩阵乘法的压缩形式,参数数量少且表达能力接近 RESCAL。
  • SimplE (2018):为每个实体 e 设置头嵌入 eₕ和尾嵌入 eₜ,每个关系 r 设置正向嵌入 r 和逆向嵌入 r⁻¹,评分函数为正向和逆向三元组的平均:
    f(h,r,t)=21(hhTdiag(r)tt+htTdiag(r−1)th)
    通过区分头 / 尾嵌入和正 / 逆向关系,在低参数复杂度下实现对非对称关系的建模。
  • TuckER (2019):引入核心张量 W,将三元组表示为多线性乘积:
    f(h,r,t)=W×1h×2r×3t
    其中 ×ₖ表示第 k 维的张量乘积。核心张量 W 是共享参数,实体和关系向量维度可独立设置,灵活性高且表达能力强。

图 6展示三维知识图谱张量如何分解为头实体向量、关系矩阵 / 向量、尾实体向量,直观呈现 "整体分解为局部" 的过程,帮助理解张量分解的核心思想。

图 7 直观展示 "头实体向量 × 关系向量 × 尾实体向量" 的双线性交互,与 RESCAL、DistMult 等双线性张量分解模型的核心思想(通过矩阵 / 张量乘积捕捉实体 - 关系关联)高度匹配,辅助解释这类模型的 "双线性关联" 本质。

在图8中,TuckER 通过 "核心张量 + 多线性乘积" 增强表示能力,图 8 清晰展示头实体、关系、尾实体向量与核心张量的交互方式,能直观解释 TuckER "用共享核心张量建模多维度关联" 的创新点。

3. 传统神经网络模型:基于 "特征提取" 的非线性建模

传统神经网络模型通过非线性变换提取三元组的深层特征,捕捉实体与关系的复杂关联,就像用高精度扫描仪提取 "实体 - 关系" 图案的细节特征,再通过特征匹配进行预测。

(1) 卷积神经网络(CNN)

卷积神经网络擅长提取局部特征,在知识图谱表示学习中,通过卷积层捕捉实体与关系向量的局部交互模式:

  • ConvE (2018):将头实体 h 和关系 r 的向量拼接后重塑为二维矩阵(如 d×k),用多个卷积核提取特征,经全连接层转换后与尾实体 t 的向量做点积:
    f(h,r,t)=g(W⋅g([h;r]∘ω)+b)⋅t
    其中 [h; r] 是向量拼接,∘是卷积运算,g 是激活函数。ConvE 首次将 CNN 用于链接预测,通过二维卷积捕捉局部特征,效果优于传统平移和张量模型。
  • ConvKB (2018):直接拼接头实体 h、关系 r、尾实体 t 的向量为 d×3 矩阵,用卷积层提取三者的整体关联特征,避免 ConvE 仅关注 h 和 r 的缺陷:
    f(h,r,t)=g(W⋅g([h;r;t]∘ω)+b)
  • ConvR (2019):将关系 r 的向量作为卷积核,对头实体 h 的向量进行卷积,增强 h 和 r 的交互:
    f(h,r,t)=g(W⋅g(h∘ωr)+b)⋅t
  • InteractE(2020):优化向量拼接方式,通过循环交替、元素交叉等方式增强 h 和 r 的交互,并使用循环卷积进一步提取特征,提升特征利用率。

InteractE 的核心优化点是 "增强实体与关系的向量交互",图 9 对比了不同的向量堆叠策略(堆叠、循环交替、元素交叉),能辅助解释该模型如何通过更精细的向量排列,提升卷积层对特征的提取能力。

图 10展示 ConvE(h 和 r 拼接卷积)、ConvKB(h、r、t 拼接卷积)、ConvR(用 r 作为卷积核)的不同卷积操作,直观呈现特征提取方式的演进。

(2) 其他神经网络模型

  • CapsE (2019):引入胶囊网络(Capsule Network),用向量输出的胶囊代替传统神经元的标量输出,更好捕捉特征的空间关系和层次结构,评分函数基于胶囊网络的输出向量 norm:
    f(h,r,t)=∣∣capsnet(g([h,r,t]∗ω))∣∣
  • RSN (2019):结合循环神经网络(RNN)和残差学习,捕捉知识图谱中的长路径依赖,通过多步关系路径的上下文信息辅助预测:
    f(h,r,t)=σ(rsn(h,p,r)⋅t)
    其中 p 是关系路径,rsn 是循环残差网络模块。

4. 图神经网络模型:基于 "信息传播" 的结构建模

图神经网络(GNN)专为图结构数据设计,通过 "信息传播" 机制聚合邻居节点的信息,更新节点表示,能有效捕捉知识图谱的局部结构特征,就像一个人通过朋友的反馈和评价,不断完善对另一个人的认识。

(1) 核心思想

GNN 的核心是迭代更新实体向量:每个实体通过聚合其邻居实体(与该实体有直接关系的实体)的信息,更新自身向量。对于知识图谱,邻居信息不仅包括实体,还包括连接它们的关系,因此模型需同时建模实体和关系的交互。

(2) 经典模型

  • R-GCN (2017):首个用于知识图谱的图卷积网络,为每个关系 r 设计转换矩阵 Wᵣ,实体向量更新公式为:
    hv(k)=f(∑(u,r)∈N(v)Wr(k)hu(k−1)+W0(k)hv(k−1))
    其中 N (v) 是实体 v 的邻居,W₀是自环矩阵(保留自身信息)。R-GCN 通过关系转换矩阵建模关系信息,但关系数量增多时会导致参数爆炸。
  • CompGCN (2020):优化 R-GCN 的参数问题,用基向量组合表示关系转换矩阵,并通过减法、乘法等组合函数 φ(hᵤ, r) 聚合邻居信息:
    hv(k)=f(∑(u,r)∈N(v)Wλ(r)(k)ϕ(hu(k−1),hr(k−1)))
    其中 λ(r) 是关系 r 的基向量索引,φ 是实体 - 关系组合函数。CompGCN 参数更少且表达能力更强。
  • WGCN(2019):引入关系权重,为不同关系的邻居分配不同聚合权重,权重由关系类型决定,增强对重要关系的关注。
  • KBGAT(2019):结合图注意力机制(GAT),通过注意力层计算邻居的权重,重要邻居(对当前实体影响大的邻居)的信息权重更高,就像在朋友评价中,更重视亲密朋友的意见。

(3) 与其他模型的区别

图神经网络模型采用 "编码 - 解码" 结构:编码阶段通过信息传播学习实体向量,解码阶段用评分函数(如 TransE、DistMult)进行链接预测。这种分离架构使 GNN 的表示学习更灵活,可适配不同的预测任务,而平移距离、张量分解等模型的表示学习与预测过程通过同一评分函数绑定。

表 1像 "二元关系模型对比表",汇总四类模型的代表模型、评分函数、优化方向和核心优缺点,例如 TransE 的评分函数为 L₁/L₂范数,优化方向是拓展映射空间,优点是简单高效,缺点是无法处理复杂关系。

四.面向多元化关系的表示学习模型:从二元到多元的扩展

现实世界的知识往往包含多个实体和关系,因此需要将二元关系模型扩展到多元关系和超关系场景。这种扩展不仅是表示形式的变化,更需要调整建模逻辑以捕捉复杂关联。

1. 多元关系的表示学习模型

多元关系用角色 - 键值对表示,模型需处理多个实体和关系的交互,其核心挑战是如何聚合多个角色 - 键值对的信息,并保持它们之间的关联。

(1) 平移距离模型的扩展

  • m-TransH (2016):将 TransH 扩展到多元关系,为每个角色 - 键值对(rᵢ, vᵢ)定义超平面,实体 vᵢ在超平面上的投影与角色向量 rᵢ满足平移约束。通过元关系(Meta-relation)聚合所有角色 - 键值对的信息,整体评分函数为:
    f(r,t)=∑ρ∈M(Rr)ar(ρ)Pnr(t(ρ))+br2
    其中 M (Rᵣ) 是角色集合,aᵣ(ρ) 是权重,P 是投影函数。m-TransH 是首个多元关系模型,但严格的位置约束导致信息丢失,且无法预测关系。
  • RAE(2018):在 m-TransH 中引入多层感知器(MLP)建模实体相关性,将实体向量输入 MLP 得到关联特征,再融入评分函数。RAE 支持多实体缺失预测,但仍局限于实体预测,无法处理关系缺失。

(2) 张量分解模型的扩展

  • GETD (2020):将 TuckER 的三阶张量扩展为(N+1)阶张量(N 为元数),用张量环分解(Tensor Ring Decomposition)简化核心张量,降低计算复杂度。例如,三元关系(N=3)的评分函数为:
    f(ir,i1,...,in)=W^×1rir×2ei1×3...×n+1ein
    GETD 需为不同元数的知识单独训练模型,泛化性差。
  • S2S(2021):将实体和关系向量分割为 N 个片段(N 为最大元数),不同元数的知识共享片段,通过稀疏核心张量聚合信息。例如,实体 e 的向量为 [e₁, e₂, ..., eₙ],元数为 k 的知识使用前 k 个片段。S2S 支持混合元数训练,但无法区分核心与辅助关系。

GETD 是针对多元关系的张量分解扩展,核心是将 TuckER 的 "三阶张量" 推广到 "N+1 阶张量"(N 为多元关系元数)。图 11 展示了 GETD 如何基于 TuckER 的核心张量进行扩展,辅助解释 "多元关系下的张量分解逻辑"。

S2S 的创新点是 "共享嵌入片段 + 稀疏核心张量",支持混合元数的多元关系建模。图 12(a)展示二元 / 三元关系的 "共享分割嵌入",图 12(b)展示 "稀疏化核心张量",能直观解释 S2S 如何在多元场景下优化参数与提升泛化性。

(3) 传统神经网络模型的扩展

  • NaLP(2019):将角色 - 键值对的向量拼接后输入卷积层,提取特征后用全连接层输出评分。NaLP 首次将 CNN 用于多元关系,但平等对待所有角色 - 键值对,忽略核心关联。
  • NaLP-Fix(2020):在 NaLP 基础上优化负采样策略,提高模型稳定性,但未解决核心关联缺失问题。
  • HypE(2021):为不同元数设计专用卷积核,增强对特定元数知识的建模,但灵活性不足,无法处理可变元数。

2. 超关系的表示学习模型

超关系保留主三元组和限定词,模型需区分核心与辅助信息,其核心挑战是如何有效融合主三元组与限定词的关联。

(1) 传统神经网络模型的扩展

  • NeuInfer (2020):分别计算主三元组的有效性得分和主三元组与限定词的兼容性得分,加权求和得到总评分:
    f(h,r,t,Q)=α⋅fmain(h,r,t)+(1−α)⋅fcomp(h,r,t,Q)
    其中 fₘₐᵢₙ是主三元组评分,fₒₘₚ是兼容性评分(主三元组与每个限定词的交互得分)。NeuInfer 首次建模超关系,但特征提取较简单。
  • HINGE (2020):将主三元组(h, r, t)与每个限定词(qₙ, qᵥ)拼接为五元组(h, r, qₙ, qᵥ, t),用卷积层提取特征后进行最小池化,聚合所有限定词的信息:
    f(h,r,t,Q)=minq∈Qfconv(h,r,qn,qv,t)
    HINGE 通过卷积捕捉主三元组与限定词的交互,但卷积操作和顺序训练导致时间复杂度高,难以应用于大规模图谱。

(2) 图神经网络模型的扩展

  • StarE (2021):扩展 CompGCN,将限定词信息纳入实体向量更新过程,实体 v 的向量更新公式为:
    hv=f(∑(u,r)∈N(v)Wλ(r)ϕr(hu,γ(hr,hq)vu))
    其中 γ(hᵣ, h_q) 融合关系和限定词向量,φᵣ是组合函数。StarE 在解码阶段可搭配 ConvE、Transformer 等模型,在超关系预测中效果最佳,证明了 GNN 对复杂结构的建模能力。

表 2这张表像 "多元化关系模型对比表",汇总多元和超关系模型的知识表示形式、模型类别、创新点和缺陷,例如 StarE 的创新点是引入 GNN 处理超关系,缺陷是主三元组与限定词的交互较简单。

图 13这张图像 "多元化模型特征提取对比图",展示 NaLP(多元关系平等处理)、NeuInfer(主三元组 + 兼容性评分)、HINGE(主三元组与限定词卷积)的特征提取流程,直观呈现从多元到超关系的建模升级。

五.实验对比与分析:不同模型的 "实战表现"

为客观评估模型性能,需在标准数据集上进行实验,通过统一指标对比不同模型的链接预测效果。本节将介绍常用数据集、评测指标,并分析实验结果。

1. 常用数据集

(1) 二元关系数据集

  • FB15k:从 FreeBase 抽取,包含 14951 个实体、1245 个关系,训练集 483142 个三元组。存在数据泄露(测试集含训练集的逆向三元组)。
  • WN18:从 WordNet 抽取,包含 40943 个实体、18 个关系,聚焦词汇语义关系。同样存在数据泄露。
  • FB15k-237:FB15k 的优化版,删除 237 个核心关系外的冗余关系,解决数据泄露问题。
  • WN18RR:WN18 的优化版,删除冗余关系,保留 11 个关系,难度更高。
  • YAGO3-10:从 YAGO3 抽取,包含 123182 个实体、37 个关系,实体数多且含文本属性,数据泄露少。

(2) 多元关系数据集

  • JF17K:从 FreeBase 抽取,包含 28645 个实体、322 个关系,多元知识占比 45.9%,但存在严重数据泄露(测试集 44.5% 主三元组在训练集)。
  • Wikipeople:从 Wikidata 抽取,聚焦人物相关知识,多元知识占比仅 2.6%,测试不充分。

(3) 超关系数据集

  • WD50K:从 Wikidata 抽取,包含 47156 个实体、532 个关系,超关系知识占比 13.6%,删除泄露数据,更具挑战性。其子集 WD50K (33)、WD50K (66)、WD50K (100) 的超关系占比分别为 31.2%、64.5%、100%,用于测试模型对超关系比例的适应性。

表 4、表 5:这两张表像 "数据集属性表",汇总二元关系数据集(表 4)和多元化关系数据集(表 5)的实体数、关系数、训练 / 验证 / 测试集规模等关键属性,方便对比数据集特点。

2. 评测指标

链接预测的核心是对候选实体或关系排序,常用指标包括:

  • 平均秩(Mean Rank, MR):正确答案在预测结果中的平均排名,值越小越好。但对异常值敏感,例如一个排名 1000 的结果会大幅拉高平均值。
  • 平均倒数秩(Mean Reciprocal Rank, MRR):正确答案排名倒数的平均值,值越大越好。MRR = (1/|Q|)Σ(1/rank (q)),对异常值更稳健。
  • 命中比率(Hits@K):排名≤K 的正确答案比例,值越大越好。常用 K=1、3、5、10,Hits@1 更关注 top1 准确性。

例如,若预测结果中正确答案的排名为 3,则其倒数秩为 1/3,Hits@1=0,Hits@3=1。MRR 和 Hits@K 是目前最常用的指标,能较全面反映模型性能。

3. 实验结果分析

(1) 二元关系模型对比

  • 平移距离模型:RotatE 表现最佳,在 FB15k-237 的 Hits@1 达 0.426,MRR 达 0.336,旋转操作使其能处理多种关系类型;TransE 因无法处理复杂关系,效果较差。
  • 张量分解模型:ComplEx 和 TuckER 效果突出,TuckER 在 YAGO3-10 的 MRR 达 0.544,共享核心张量增强了表达能力;DistMult 因对称性限制,在非对称关系数据集上效果较差。
  • 传统神经网络模型:ConvR 在多个数据集表现优异,ConvE 次之,ConvKB 因简单卷积效果较差;CapsE 和 RSN 效果不稳定,仍需优化。
  • 图神经网络模型:CompGCN 在复杂数据集上优势明显,证明信息传播机制能有效捕捉图结构特征。

(2) 多元关系模型对比

  • S2S 效果最佳,在 JF17K 的 MRR 达 0.528,共享嵌入片段解决了元数限制;GETD 在特定元数上表现好,但泛化性差;NaLP 因平等处理角色 - 键值对,效果最差。

(3) 超关系模型对比

  • StarE(+Transformer)效果最优,在 WD50K (100) 的 Hits@1 达 0.588,MRR 达 0.654,超关系占比越高,优势越明显;HINGE 次之,但复杂度高;NaLP-Fix 因未区分主次关系,效果最差。

表 6、表 7、表 8:这些表像 "实验结果对比表",汇总不同模型在各数据集上的 MRR、Hits@1、Hits@10 指标,加粗数据为最优结果,直观呈现模型性能差异。

(4) 关键结论

  • 模型表达能力:图神经网络 > 传统神经网络 > 张量分解 > 平移距离(整体趋势,具体因数据集而异)。
  • 知识表示形式:超关系 > 多元关系 > 二元关系,更精准的知识表示能提升预测效果。
  • 效率与效果平衡:平移距离模型效率最高,适合大规模图谱;图神经网络效果最佳,但计算复杂度高。

六.未来研究方向:挑战与机遇

尽管知识图谱表示学习已取得显著进展,但仍面临诸多挑战,未来可从以下方向突破:

1. 模型优化:提升可解释性与可扩展性

(1) 增强可解释性 :现有神经网络模型多为 "黑箱",预测结果难以解释。未来需结合逻辑规则(如将路径约束融入 GNN),或设计可解释的注意力机制,让模型 "说明" 预测依据,就像导航软件不仅给出路线,还解释选择理由。

(2) 提高可扩展性:大规模知识图谱(实体数超百万)对模型效率要求高。需研究稀疏参数化(如稀疏张量分解)、分布式训练(如分块处理实体)、在线学习(动态更新模型)等技术,降低计算复杂度。

2. 知识表示形式:融合更多结构与信息

(1) 融合层次与路径信息 :知识图谱中的层次结构(如 "动物→哺乳动物→猫")和关系路径(如 "朋友的朋友")蕴含丰富语义,未来需设计新表示形式整合这些信息,例如将层次约束作为正则项融入模型。

(2) 引入多模态信息:实体的文本描述、图像等多模态信息可辅助关系预测,需设计跨模态表示学习模型,实现 "文本 - 图像 - 知识" 的联合建模。

3. 问题作用域:针对特定场景定制模型

(1) 低资源场景 :小众领域知识图谱数据稀疏,需开发少样本 / 零样本学习模型,利用迁移学习(如从通用图谱迁移知识)或元学习(快速适应新关系)提高预测效果。

(2) 动态知识图谱 :实体和关系随时间变化(如 "总统" 关系的更替),需设计时序表示学习模型,捕捉知识的动态演化,就像实时更新的导航地图。

(3) 跨语言知识图谱:多语言知识图谱的链接预测需解决语言差异,需设计跨语言表示模型,实现不同语言实体的对齐与关联预测。

七.总结

知识图谱表示学习是链接预测的核心技术,通过将实体和关系转换为向量,实现了知识的可计算性。本文从知识表示形式和建模方法两个维度,系统解读了面向链接预测的表示学习方法:

  • 知识表示形式:从二元关系到多元关系再到超关系,演进趋势是更精准地刻画复杂知识,保留更多语义关联。
  • 建模方法:平移距离模型基于空间平移,张量分解模型基于矩阵分解,传统神经网络模型基于特征提取,图神经网络模型基于信息传播,四类模型各有优劣,图神经网络在复杂场景中表现最佳。

实验结果表明,超关系表示形式结合图神经网络模型能取得最优预测效果,但模型的可解释性和可扩展性仍需提升。未来,随着技术的发展,知识图谱表示学习将在低资源、动态、跨模态等场景中发挥更大作用,为智能系统提供更完整、更可靠的知识支撑。

通过不断优化模型、丰富知识表示形式、拓展应用场景,知识图谱这张 "知识地图" 将越来越完善,为人工智能的认知智能发展奠定坚实基础。

本期技术解构至此。

论文揭示的方法论范式对跨领域技术实践具有普适参考价值。下期将聚焦其他前沿成果,深入剖析其的突破路径。敬请持续关注,共同深挖工程实现脉络,淬炼创新底层逻辑,在学术与工程融合中洞见技术演进规律,推动领域范式持续进化。

相关推荐
风象南20 小时前
Claude Code这个隐藏技能,让我告别PPT焦虑
人工智能·后端
Mintopia20 小时前
OpenClaw 对软件行业产生的影响
人工智能
陈广亮21 小时前
构建具有长期记忆的 AI Agent:从设计模式到生产实践
人工智能
会写代码的柯基犬21 小时前
DeepSeek vs Kimi vs Qwen —— AI 生成俄罗斯方块代码效果横评
人工智能·llm
Mintopia1 天前
OpenClaw 是什么?为什么节后热度如此之高?
人工智能
爱可生开源社区1 天前
DBA 的未来?八位行业先锋的年度圆桌讨论
人工智能·dba
叁两1 天前
用opencode打造全自动公众号写作流水线,AI 代笔太香了!
前端·人工智能·agent
前端付豪1 天前
LangChain记忆:通过Memory记住上次的对话细节
人工智能·python·langchain
strayCat232551 天前
Clawdbot 源码解读 7: 扩展机制
人工智能·开源