论文精读（五）：面向链接预测的知识图谱表示学习方法综述

在信息爆炸的时代，我们每天都会接触到海量数据，但这些数据大多以零散的文字、图片等形式存在，就像散落的拼图碎片。知识图谱（Knowledge Graph, KG）的出现，将这些碎片拼接成一张结构化的 "知识地图"------ 实体是地图上的城市，关系是连接城市的道路，让我们能清晰看到知识之间的关联。然而，这张 "地图" 却常常存在 "道路缺失" 的问题：全球知名的知识图谱 FreeBase 中，70% 的人物实体没有出生地信息，99% 缺失种族信息；Wikidata 虽覆盖更广，但仍有大量复杂关系未被记录。这种不完整性就像地图上关键路段的缺失，严重影响了知识的应用价值 ------ 在信息检索中，可能漏掉相关结果；在问答系统中，无法回答涉及未记录关系的问题

为了补全这张 "知识地图"，链接预测（Link Prediction）技术应运而生。它能根据已有 "道路" 推测缺失的 "连接"，比如根据 "（北京，是首都，中国）" 和 "（中国，位于，亚洲）"，推测出 "（北京，位于，亚洲）" 这一缺失关系。而实现链接预测的核心，是知识图谱表示学习（Knowledge Graph Representation Learning）------ 将实体和关系从文字符号转换为计算机可计算的数值向量，就像把地图上的城市坐标化，让计算机能通过坐标计算距离和方向，从而推测未知的 "道路"

就像量子计算系统有 "应用→系统软件→体系结构→硬件" 的完整链条，知识图谱要从 "零散数据" 变成 "可用工具"，也离不开 "构建图谱→发现缺失→补全链接" 的核心流程。咱们沿着 "是什么→缺什么→怎么补" 的思路，逐个拆解。

本文将系统解读面向链接预测的知识图谱表示学习方法，从知识图谱的基本构成与链接预测的核心目标出发，拆解二元关系、多元关系、超关系三种知识表示形式，详解平移距离、张量分解、传统神经网络、图神经网络四类表示学习模型的原理与演化，并通过实验对比揭示不同模型的性能差异，最后展望未来研究方向。通过本文，读者将全面掌握知识图谱补全的核心技术，理解计算机如何 "读懂" 知识并推测未知关联。

一.知识图谱与链接预测的基础认知

1.知识图谱：结构化的 "知识通讯录"

知识图谱本质是存 "谁与谁有啥关联" 的数据库，由实体（图的节点）和关系（图的边）组成，比如 "（李白，创作，《静夜思》）""（《静夜思》，属于，诗歌）"。

经典类比：就像经典计算机里的 "关系型数据库"，实体是 "数据表的行"，关系是 "数据表的列"，存的是结构化的 "实体 - 关系 - 实体" 三元组，而非杂乱的文本段落。
人话类比：就像你手机里的通讯录 ------"张三""李四" 是联系人（实体），"同事""大学同学""同住一个小区" 是关系，你能一眼看清谁和谁有关联，而不是把所有名字堆在无分类的备忘录里。

目前，学术界和工业界已构建了多个大规模知识图谱：

FreeBase

由谷歌构建的开放知识图谱，包含大量实体和关系，但存在严重的信息缺失，如前文所述的人物属性缺失问题。

Wikidata

维基百科支持的协作式知识图谱，数据更全面，且允许用户持续编辑补充，就像一张不断更新的 "活地图"。

DBpedia

从维基百科中抽取结构化知识形成的图谱，聚焦于实体的属性和分类，如 "（北京，首都，中国）""（北京，人口，2154 万）"。

YAGO

融合维基百科和 WordNet 的知识图谱，强调实体的时间和空间属性，如 "（爱因斯坦，出生于，1879 年）"。

但现有图谱都有 "通讯录备注不全" 的问题：

FreeBase 中 70% 的人物实体没 "出生地" 信息，99% 缺失 "种族" 信息；

连 "（鱼，生活在，水）" 这种常识，Wikidata 都可能漏记。

......

这就像你通讯录里有人没填手机号、有人没标 "所属部门"，真要联系或找人时，总会 "卡壳"。

这种缺失会导致知识图谱在应用中 "力不从心"------ 比如智能问答系统无法回答 "鱼生活在哪里？"，推荐系统无法基于未记录的关系推荐相关内容。

2. 链接预测：补全 "知识地图" 的核心任务

链接预测是知识图谱补全（Knowledge Graph Completion）的核心任务，目标是根据知识图谱中已有的实体和关系，预测缺失的实体或关系。具体可分为两类子任务：

实体预测：已知关系和部分实体，预测缺失的实体。例如已知 "（?, 创作，《静夜思》）"，预测头实体 "李白"；已知 "（李白，创作，?）"，预测尾实体 "《静夜思》"。这就像已知 "航线" 和 "终点"，推测 "起点"；或已知 "起点" 和 "航线"，推测 "终点"。
关系预测：已知头实体和尾实体，预测它们之间的关系。例如已知 "（李白，?, 《静夜思》）"，预测关系 "创作"；已知 "（北京，?, 中国）"，预测关系 "是首都"。这就像已知 "起点" 和 "终点"，推测连接它们的 "航线类型"。

图2左侧展示实体预测场景（用 "?" 标记缺失的头实体），右侧展示关系预测场景（用 "?" 标记缺失的关系），通过具体案例（如 "（?，导演，《流浪地球》）" 预测 "郭帆"）直观呈现两类任务的区别。

链接预测的实现依赖于对知识图谱中 "关系模式" 的挖掘。知识图谱中存在多种典型的关系模式，例如：

对称关系

若 "（A，朋友，B）" 成立，则 "（B，朋友，A）" 也成立，如 "朋友""同事"。

反对称关系

若 "（A，父亲，B）" 成立，则 "（B，父亲，A）" 一定不成立，如 "父子""上下级"。

传递关系

若 "（A，属于，B）" 和 "（B，属于，C）" 成立，则 "（A，属于，C）" 也成立，如 "国家 - 省份 - 城市" 的隶属关系。

表示学习模型通过捕捉这些模式，实现对缺失链接的预测。例如，对于传递关系，模型会学习到 "头实体向量 + 关系向量 1 + 关系向量 2 ≈ 尾实体向量" 的规律，从而推测多步关系。

3. 表示学习：让计算机 "理解" 知识的桥梁

知识图谱中的实体和关系以符号形式存在（如 "李白""创作"），而计算机无法直接处理符号之间的语义关联。表示学习的作用，就是将这些符号转换为低维稠密的数值向量（Embedding），让向量之间的运算能够反映语义关系，就像用经纬度表示城市位置，通过经纬度计算距离来反映城市间的实际距离。

表示学习的核心目标是：对于知识图谱中存在的三元组（h, r, t），其向量表示应满足某种 "合理性条件"，而对于不存在的三元组，则不满足该条件。例如，TransE 模型要求 "h + r ≈ t"，即头实体向量与关系向量的和应接近尾实体向量；ComplEx 模型则通过复数向量的运算捕捉实体与关系的交互。

表示学习与链接预测的关系密不可分：

表示学习是链接预测的基础：只有将实体和关系转换为向量，计算机才能通过数值计算推测缺失链接，就像只有将城市坐标化，才能通过坐标计算路线。
链接预测是表示学习的重要应用：表示学习的效果通常通过链接预测的准确率来评估，一个好的表示模型应能准确预测缺失的实体或关系，就像准确的坐标系统能帮助我们找到最短路线。

通过表示学习，知识图谱的符号化知识被转化为向量空间中的数值关系，为链接预测、知识推理、信息检索等任务提供了可计算的基础。

二.知识表示形式：从简单到复杂的 "知识编码" 演进

知识的复杂性决定了其表示形式的多样性。从最初的二元关系，到能表达复杂关联的多元关系和超关系，知识表示形式的演进反映了对现实世界知识的更精准刻画。

1. 二元关系：知识表示的 "基础句型"

二元关系是知识图谱中最基本、最常用的表示形式，用三元组（h, r, t）描述 "头实体 - 关系 - 尾实体" 的关联，就像语言中的 "主谓宾" 短句，结构简单且易于处理。例如：

"（北京，是首都，中国）"：头实体 "北京"，关系 "是首都"，尾实体 "中国"。
"（爱因斯坦，提出，相对论）"：头实体 "爱因斯坦"，关系 "提出"，尾实体 "相对论"。

数学建模

在二元关系中，链接预测的目标是补全不完整的三元组，具体分为三种情况：

头实体缺失：（?, r, t），需预测 h，如 "（?, 发明，电灯）"→"爱迪生"。
尾实体缺失：（h, r, ?），需预测 t，如 "（牛顿，发现，?）"→"万有引力"。
关系缺失：（h, ?, t），需预测 r，如 "（地球，?, 太阳系）"→"属于"。

模型通过学习实体和关系的向量表示，对所有可能的候选实体或关系进行评分，评分最高的即为预测结果。例如，对于（?, 发明，电灯），模型会计算每个实体 h 的向量与 "发明" 向量 r 的和，与 "电灯" 向量 t 的距离，距离最小的 h 即为预测答案。

优缺点分析

优点：结构简单，易于建模和计算，是目前知识图谱中最主流的表示形式。现有大多数表示学习模型都是基于二元关系设计的，如 TransE、DistMult 等。
缺点：表达能力有限，无法刻画包含多个实体或关系的复杂知识。例如，"在 2023 年的电影《流浪地球 2》中，吴京饰演刘培强" 这一事实，包含实体 "吴京""《流浪地球 2》""2023 年""刘培强" 和关系 "参演""上映时间""饰演角色"，若拆分为多个二元三元组：
- （吴京，参演，《流浪地球 2》）
- （《流浪地球 2》，上映时间，2023 年）
- （吴京，饰演角色，刘培强）
  会丢失 "参演电影""上映时间""饰演角色" 之间的关联信息，就像把一个完整的长句拆成零散的短句，失去了上下文联系。

2. 多元关系：表达复杂知识的 "长句型"

为了表达包含 3 个及以上实体或多个关系的复杂知识，多元关系（N-ary Relations）表示形式应运而生。它用一组 "角色 - 键值对"（Role-Value Pairs）描述知识，其中 "角色" 对应关系，"键值" 对应实体，就像带多个修饰语的长句，能完整呈现知识的细节。例如，上述电影案例的多元关系表示为：

{演员：吴京，电影: 《流浪地球 2》, 上映时间: 2023 年，饰演角色：刘培强}

数学建模

多元关系的一般形式为 {r₁: v₁, r₂: v₂, ..., rₙ: vₙ}，其中 n≥3（元数）。链接预测任务需补全缺失的角色或键值：

角色缺失：{r₁: v₁, ..., ?: vₙ}，需预测缺失的角色 r，如 {演员：吴京，电影: 《流浪地球 2》, ?: 刘培强}→"饰演角色"。
键值缺失：{r₁: v₁, ..., rₙ: ?}，需预测缺失的键值 v，如 {演员：吴京，电影: ?, 饰演角色：刘培强}→《流浪地球 2》。

多元关系的建模需考虑角色与键值之间的关联，以及不同角色 - 键值对之间的交互。例如，"演员" 和 "饰演角色" 的键值通常存在对应关系（特定演员在特定电影中饰演特定角色），模型需捕捉这种关联以提高预测准确率。

优缺点分析

优点：能完整表达复杂知识，保留多个实体和关系之间的关联信息，避免了二元关系拆分导致的语义丢失。
缺点：破坏了三元组的结构化形式，所有角色 - 键值对平行存储，缺少主次之分。例如，在 {演员：吴京，电影: 《流浪地球 2》, 上映时间: 2023 年} 中，"演员 - 电影" 是核心关系，"上映时间" 是辅助信息，但多元关系将它们平等对待，可能导致模型无法聚焦核心关联，就像长句中修饰语过多掩盖了主干意思。

3. 超关系：主次分明的复杂知识表示

超关系（Hyper-relations）是多元关系的优化形式，它保留一个主三元组（h, r, t）作为核心知识，其余信息作为 "限定词键值对"（Qualifier Pairs）附加在主三元组上，整体表示为（h, r, t, Q），其中 Q={(q₁: v₁), ..., (qₙ: vₙ)} 是辅助信息，就像 "主题句 + 注释" 的结构，主次分明。例如，上述电影案例的超关系表示为：

（吴京，参演，《流浪地球 2》，{上映时间: 2023 年，饰演角色：刘培强}）

数学建模

超关系以主三元组为核心，限定词为辅助，链接预测主要针对主三元组的缺失进行补全，同时利用限定词信息提高预测精度：

头实体缺失：（?, r, t, Q），如（?, 参演，《流浪地球 2》, {饰演角色：刘培强}）→"吴京"。
尾实体缺失：（h, r, ?, Q），如（吴京，参演，?, {上映时间: 2023 年}）→《流浪地球 2》。
关系缺失：（h, ?, t, Q），如（吴京，?, 《流浪地球 2》, {饰演角色：刘培强}）→"参演"。

限定词的作用是提供上下文约束，缩小预测范围。例如，预测 "（?, 参演，《流浪地球 2》）" 时，若已知限定词 "饰演角色：刘培强"，模型可更精准地定位到 "吴京"，而不是其他参演演员。

优缺点分析

优点：既保留了核心语义（主三元组），又包含了辅助信息（限定词），知识表示的准确性和完整性优于二元关系和多元关系。同时，主三元组的结构与现有二元关系模型兼容，便于模型扩展。
缺点：对模型的建模能力要求更高，需要区分主三元组与限定词的关联，以及不同限定词之间的交互。例如，模型需理解 "饰演角色" 限定词与主三元组 "参演" 关系的强关联性，而 "上映时间" 限定词的关联性较弱。

图三，以 "本尼迪克特・康伯巴奇在《模仿游戏》中饰演阿兰・图灵并获奥斯卡提名" 为例，分别展示二元关系（拆分为 3 个三元组）、多元关系（4 个角色 - 键值对）、超关系（主三元组 + 2 个限定词）的表示方式，直观呈现三者在语义保留和结构清晰度上的差异。

与知识超图的区别

超图（Hypergraph）中每条边可连接多个节点，知识超图用一条超边连接多元知识中的所有实体，但未区分主次关系，更接近多元关系的表示形式。而超关系通过主三元组明确核心关联，限定词辅助描述，在语义表达上更精准，因此更适合链接预测任务。

三.面向二元关系的表示学习模型：四类经典 "建模方法"

在深入剖析各类表示学习模型的细节前，我们先通过 "知识图谱表示学习技术划分框架"，从时间线与模型类别两个角度，直观把握技术发展的整体脉络与分类逻辑。

图 1横向划分 "平移距离模型""张量分解模型""神经网络模型""图神经网络模型" 四大类，纵向按年份（2012---2021）排列关键模型，并通过符号（方块、三角形、圆形）区分 "二元关系模型""多元关系模型""超关系模型"，同时用颜色标注 "拓展映射空间""附加约束 / 信息""优化卷积处理方式" 等技术优化方向，为后续具体模型的讲解提供全局视角。

接下来，我们将依次详解这四类面向二元关系的表示学习模型的原理、优化与衍生。

二元关系是知识图谱的基础，针对二元关系的表示学习模型已形成四大类：平移距离模型、张量分解模型、传统神经网络模型和图神经网络模型。这些模型从不同角度建模实体与关系的关联，各有优劣。

1. 平移距离模型：基于 "空间平移" 的语义建模

平移距离模型受词向量（Word2Vec）中 "平移不变性" 现象的启发，将关系视为头实体到尾实体的 "平移向量"，核心思想是 "头实体向量 + 关系向量 ≈ 尾实体向量"，就像在地图上，"起点坐标 + 路线向量 ≈ 终点坐标"。

(1) 经典模型：TransE

TransE 是 2013 年提出的首个平移距离模型，它将每个实体和关系映射到低维向量空间，对于三元组（h, r, t），要求 h + r ≈ t。其评分函数定义为：

f(h,r,t)=∣∣h+r−t∣∣L1/L2

其中，||・|| 表示 L₁或 L₂范数（距离），评分越低，三元组越合理。例如，对于 "（北京，到，上海）"，TransE 学习到的向量应满足 "北京 + 到 ≈ 上海"。

TransE 的优点是简单高效，参数少，适合大规模知识图谱；但缺点是无法处理复杂关系，如 1-N（一个头实体对应多个尾实体，如 "母亲 - 子女"）、N-1（多个头实体对应一个尾实体，如 "子女 - 父亲"）和 N-N（多对多关系，如 "学生 - 老师"）。例如，对于 "（小明，母亲，李华）" 和 "（小红，母亲，李华）"，TransE 会要求 "小明 + 母亲 ≈ 李华" 和 "小红 + 母亲 ≈ 李华"，导致 "小明 ≈ 小红"，显然不合理。

(2) 优化方向与衍生模型

为解决 TransE 的缺陷，研究者从多个方向进行优化：

拓展映射空间

TransH （2014）：将实体和关系映射到关系专属的超平面上，头实体 h 和尾实体 t 在超平面上的投影 h⊥、t⊥满足 h⊥ + dᵣ ≈ t⊥（dᵣ是超平面上的平移向量）。超平面通过法线向量 wᵣ定义，投影计算为：
h⊥=h−wrTh⋅wr
t⊥=t−wrTt⋅wr
评分函数为：f(h,r,t)=∣∣h⊥+dr−t⊥∣∣22
TransH 通过超平面区分不同关系的映射空间，能更好处理 1-N 等复杂关系，就像为不同类型的路线（如公路、铁路）设置不同的平面地图。
TransR （2015）：进一步将实体空间与关系空间分离，每个关系 r 对应一个投影矩阵 Mᵣ，实体向量通过 Mᵣ投影到关系空间后再进行平移：
hr=h⋅Mr
tr=t⋅Mr
评分函数为：f(h,r,t)=∣∣hr+r−tr∣∣22
例如，"苹果" 作为水果和公司时，在 "属于 - 水果" 和 "属于 - 公司" 关系空间中的投影不同，避免了语义混淆。
TransD （2015）：针对 TransR 中头尾实体共享投影矩阵的问题，为头实体和尾实体分别设计投影矩阵 Mᵣₕ和 Mᵣₜ，提高建模灵活性：
hr=h⋅Mrh
tr=t⋅Mrt
评分函数与 TransR 类似。

改进映射方式

TorusE（2018）：将向量空间从欧氏空间改为环形曲面（Torus），利用环形空间的周期性解决长距离平移问题，评分函数考虑环形空间中的最短距离。
RotatE（2019）：将向量空间扩展到复数域，将关系视为旋转操作，即 h ⊙ r ≈ t（⊙为元素级乘法），其中 r 的模长为 1（旋转向量特性）。这种旋转操作能自然建模对称关系（旋转 0 度）、反对称关系（旋转 180 度）和逆关系（旋转相反角度），例如 "朋友" 关系是对称的（r 旋转 0 度，h⊙r = h ≈ t，t⊙r = t ≈ h），"父子" 关系是反对称的（r 旋转 180 度，h⊙r ≈ t 则 t⊙r ≈ -h ≠ h）。

图 5 为 "旋转映射模型示意图"，其中（a）是TorusE 的环形映射空间示意图 ，展示实体向量在圆环表面的分布与平移逻辑；（b）是RotatE 的复数域旋转示意图，直观呈现 "头实体向量h经关系r旋转后得到hr，且hr与尾实体向量t的距离越近，三元组越合理" 的核心思想。通过示意图，能更清晰理解 TorusE 的 "环形空间平移" 与 RotatE 的 "复数域旋转" 技术细节。

区分向量表示

TranSparse（2016）：针对关系的异质性（不同关系连接的实体对数差异大），用稀疏度不同的矩阵表示关系，复杂关系（连接实体多）用稠密矩阵，简单关系用稀疏矩阵，减少参数冗余。

附加约束信息

CTransR（2015）：将同一关系的实体对聚类，为每个聚类学习专属关系向量，增强对关系细分语义的建模。
PTransE（2015）：引入关系路径信息，例如 "h → r1 → e → r2 → t" 可推出 "h → r → t"，通过路径约束增强预测准确性。

图 4直观展示 TransE（同一空间平移）、TransH（超平面投影）、TransR（实体 - 关系空间分离）、TransD（头尾实体分别投影）的空间映射差异，帮助理解模型的演进逻辑。

2. 张量分解模型：基于 "矩阵分解" 的关联捕捉

张量分解模型将知识图谱视为一个三维张量（实体 × 实体 × 关系），其中张量元素 T (h, r, t)=1 表示三元组（h, r, t）存在，T (h, r, t)=0 表示不存在。通过分解张量，得到实体和关系的低维向量表示，就像将一个复杂的魔方拆成小方块，通过小方块的组合还原魔方结构。

(1) 经典模型：RESCAL

RESCAL 是 2011 年提出的首个张量分解模型，它将三元组（h, r, t）表示为实体向量与关系矩阵的双线性乘积：

f(h,r,t)=hTMrt

其中，Mᵣ是关系 r 的 d×d 矩阵，h 和 t 是 d 维实体向量。该模型通过矩阵 Mᵣ捕捉实体 h 和 t 之间的交互强度，评分越高，三元组越合理。

RESCAL 的优点是表达能力强，能建模多种关系类型；但缺点是参数多（每个关系有 d² 个参数），计算复杂度高，难以应用于大规模知识图谱。

(2) 优化方向与衍生模型

为降低复杂度并增强建模能力，研究者提出了多种优化模型：

施加矩阵约束

DistMult （2015）：简化 Mᵣ为对角矩阵（Mᵣ=diag (r)），评分函数变为：
f(h,r,t)=hTdiag(r)t=∑i=1dhiriti
参数数量从 d² 减少到 d，计算效率大幅提升。但对角矩阵的对称性导致模型只能处理对称关系（h^T diag (r) t = t^T diag (r) h），无法建模反对称关系（如 "父子"）。
ComplEx （2016）：引入复数向量解决 DistMult 的对称性问题，实体和关系向量为复数域向量，评分函数为：
f(h,r,t)=Re(hTdiag(r)tˉ)
其中，tˉ是 t 的共轭复数，Re (・) 表示取实部。复数运算打破了对称性（h^T diag (r) tˉ ≠ t^T diag(r) hˉ），使模型能处理反对称关系。
ANALOGY（2017）：要求关系矩阵 Mᵣ是正规矩阵（MᵣMᵣᵀ = MᵣᵀMᵣ），并满足关系组合的可交换性，增强对类比推理的支持，例如 "国王 - 男人 = 女王 - 女人" 的类比关系。

优化分解形式

HolE （2016）：用循环关联运算（Circular Correlation）压缩实体交互，h * t 的结果与关系向量 r 做点积：
f(h,r,t)=(h∗t)Tr
循环关联运算可视为矩阵乘法的压缩形式，参数数量少且表达能力接近 RESCAL。
SimplE （2018）：为每个实体 e 设置头嵌入 eₕ和尾嵌入 eₜ，每个关系 r 设置正向嵌入 r 和逆向嵌入 r⁻¹，评分函数为正向和逆向三元组的平均：
f(h,r,t)=21(hhTdiag(r)tt+htTdiag(r−1)th)
通过区分头 / 尾嵌入和正 / 逆向关系，在低参数复杂度下实现对非对称关系的建模。
TuckER （2019）：引入核心张量 W，将三元组表示为多线性乘积：
f(h,r,t)=W×1h×2r×3t
其中 ×ₖ表示第 k 维的张量乘积。核心张量 W 是共享参数，实体和关系向量维度可独立设置，灵活性高且表达能力强。

图 6展示三维知识图谱张量如何分解为头实体向量、关系矩阵 / 向量、尾实体向量，直观呈现 "整体分解为局部" 的过程，帮助理解张量分解的核心思想。

图 7 直观展示 "头实体向量 × 关系向量 × 尾实体向量" 的双线性交互，与 RESCAL、DistMult 等双线性张量分解模型的核心思想（通过矩阵 / 张量乘积捕捉实体 - 关系关联）高度匹配，辅助解释这类模型的 "双线性关联" 本质。

在图8中，TuckER 通过 "核心张量 + 多线性乘积" 增强表示能力，图 8 清晰展示头实体、关系、尾实体向量与核心张量的交互方式，能直观解释 TuckER "用共享核心张量建模多维度关联" 的创新点。

3. 传统神经网络模型：基于 "特征提取" 的非线性建模

传统神经网络模型通过非线性变换提取三元组的深层特征，捕捉实体与关系的复杂关联，就像用高精度扫描仪提取 "实体 - 关系" 图案的细节特征，再通过特征匹配进行预测。

(1) 卷积神经网络（CNN）

卷积神经网络擅长提取局部特征，在知识图谱表示学习中，通过卷积层捕捉实体与关系向量的局部交互模式：

ConvE （2018）：将头实体 h 和关系 r 的向量拼接后重塑为二维矩阵（如 d×k），用多个卷积核提取特征，经全连接层转换后与尾实体 t 的向量做点积：
f(h,r,t)=g(W⋅g([h;r]∘ω)+b)⋅t
其中 [h; r] 是向量拼接，∘是卷积运算，g 是激活函数。ConvE 首次将 CNN 用于链接预测，通过二维卷积捕捉局部特征，效果优于传统平移和张量模型。
ConvKB （2018）：直接拼接头实体 h、关系 r、尾实体 t 的向量为 d×3 矩阵，用卷积层提取三者的整体关联特征，避免 ConvE 仅关注 h 和 r 的缺陷：
f(h,r,t)=g(W⋅g([h;r;t]∘ω)+b)
ConvR （2019）：将关系 r 的向量作为卷积核，对头实体 h 的向量进行卷积，增强 h 和 r 的交互：
f(h,r,t)=g(W⋅g(h∘ωr)+b)⋅t
InteractE（2020）：优化向量拼接方式，通过循环交替、元素交叉等方式增强 h 和 r 的交互，并使用循环卷积进一步提取特征，提升特征利用率。

InteractE 的核心优化点是 "增强实体与关系的向量交互"，图 9 对比了不同的向量堆叠策略（堆叠、循环交替、元素交叉），能辅助解释该模型如何通过更精细的向量排列，提升卷积层对特征的提取能力。

图 10展示 ConvE（h 和 r 拼接卷积）、ConvKB（h、r、t 拼接卷积）、ConvR（用 r 作为卷积核）的不同卷积操作，直观呈现特征提取方式的演进。

(2) 其他神经网络模型

CapsE （2019）：引入胶囊网络（Capsule Network），用向量输出的胶囊代替传统神经元的标量输出，更好捕捉特征的空间关系和层次结构，评分函数基于胶囊网络的输出向量 norm：
f(h,r,t)=∣∣capsnet(g([h,r,t]∗ω))∣∣
RSN （2019）：结合循环神经网络（RNN）和残差学习，捕捉知识图谱中的长路径依赖，通过多步关系路径的上下文信息辅助预测：
f(h,r,t)=σ(rsn(h,p,r)⋅t)
其中 p 是关系路径，rsn 是循环残差网络模块。

4. 图神经网络模型：基于 "信息传播" 的结构建模

图神经网络（GNN）专为图结构数据设计，通过 "信息传播" 机制聚合邻居节点的信息，更新节点表示，能有效捕捉知识图谱的局部结构特征，就像一个人通过朋友的反馈和评价，不断完善对另一个人的认识。

(1) 核心思想

GNN 的核心是迭代更新实体向量：每个实体通过聚合其邻居实体（与该实体有直接关系的实体）的信息，更新自身向量。对于知识图谱，邻居信息不仅包括实体，还包括连接它们的关系，因此模型需同时建模实体和关系的交互。

(2) 经典模型

R-GCN （2017）：首个用于知识图谱的图卷积网络，为每个关系 r 设计转换矩阵 Wᵣ，实体向量更新公式为：
hv(k)=f(∑(u,r)∈N(v)Wr(k)hu(k−1)+W0(k)hv(k−1))
其中 N (v) 是实体 v 的邻居，W₀是自环矩阵（保留自身信息）。R-GCN 通过关系转换矩阵建模关系信息，但关系数量增多时会导致参数爆炸。
CompGCN （2020）：优化 R-GCN 的参数问题，用基向量组合表示关系转换矩阵，并通过减法、乘法等组合函数 φ(hᵤ, r) 聚合邻居信息：
hv(k)=f(∑(u,r)∈N(v)Wλ(r)(k)ϕ(hu(k−1),hr(k−1)))
其中 λ(r) 是关系 r 的基向量索引，φ 是实体 - 关系组合函数。CompGCN 参数更少且表达能力更强。
WGCN（2019）：引入关系权重，为不同关系的邻居分配不同聚合权重，权重由关系类型决定，增强对重要关系的关注。
KBGAT（2019）：结合图注意力机制（GAT），通过注意力层计算邻居的权重，重要邻居（对当前实体影响大的邻居）的信息权重更高，就像在朋友评价中，更重视亲密朋友的意见。

(3) 与其他模型的区别

图神经网络模型采用 "编码 - 解码" 结构：编码阶段通过信息传播学习实体向量，解码阶段用评分函数（如 TransE、DistMult）进行链接预测。这种分离架构使 GNN 的表示学习更灵活，可适配不同的预测任务，而平移距离、张量分解等模型的表示学习与预测过程通过同一评分函数绑定。

表 1像 "二元关系模型对比表"，汇总四类模型的代表模型、评分函数、优化方向和核心优缺点，例如 TransE 的评分函数为 L₁/L₂范数，优化方向是拓展映射空间，优点是简单高效，缺点是无法处理复杂关系。

四.面向多元化关系的表示学习模型：从二元到多元的扩展

现实世界的知识往往包含多个实体和关系，因此需要将二元关系模型扩展到多元关系和超关系场景。这种扩展不仅是表示形式的变化，更需要调整建模逻辑以捕捉复杂关联。

1. 多元关系的表示学习模型

多元关系用角色 - 键值对表示，模型需处理多个实体和关系的交互，其核心挑战是如何聚合多个角色 - 键值对的信息，并保持它们之间的关联。

(1) 平移距离模型的扩展

m-TransH （2016）：将 TransH 扩展到多元关系，为每个角色 - 键值对（rᵢ, vᵢ）定义超平面，实体 vᵢ在超平面上的投影与角色向量 rᵢ满足平移约束。通过元关系（Meta-relation）聚合所有角色 - 键值对的信息，整体评分函数为：
f(r,t)=∑ρ∈M(Rr)ar(ρ)Pnr(t(ρ))+br2
其中 M (Rᵣ) 是角色集合，aᵣ(ρ) 是权重，P 是投影函数。m-TransH 是首个多元关系模型，但严格的位置约束导致信息丢失，且无法预测关系。
RAE（2018）：在 m-TransH 中引入多层感知器（MLP）建模实体相关性，将实体向量输入 MLP 得到关联特征，再融入评分函数。RAE 支持多实体缺失预测，但仍局限于实体预测，无法处理关系缺失。

(2) 张量分解模型的扩展

GETD （2020）：将 TuckER 的三阶张量扩展为（N+1）阶张量（N 为元数），用张量环分解（Tensor Ring Decomposition）简化核心张量，降低计算复杂度。例如，三元关系（N=3）的评分函数为：
f(ir,i1,...,in)=W^×1rir×2ei1×3...×n+1ein
GETD 需为不同元数的知识单独训练模型，泛化性差。
S2S（2021）：将实体和关系向量分割为 N 个片段（N 为最大元数），不同元数的知识共享片段，通过稀疏核心张量聚合信息。例如，实体 e 的向量为 [e₁, e₂, ..., eₙ]，元数为 k 的知识使用前 k 个片段。S2S 支持混合元数训练，但无法区分核心与辅助关系。

GETD 是针对多元关系的张量分解扩展，核心是将 TuckER 的 "三阶张量" 推广到 "N+1 阶张量"（N 为多元关系元数）。图 11 展示了 GETD 如何基于 TuckER 的核心张量进行扩展，辅助解释 "多元关系下的张量分解逻辑"。

S2S 的创新点是 "共享嵌入片段 + 稀疏核心张量"，支持混合元数的多元关系建模。图 12（a）展示二元 / 三元关系的 "共享分割嵌入"，图 12（b）展示 "稀疏化核心张量"，能直观解释 S2S 如何在多元场景下优化参数与提升泛化性。

(3) 传统神经网络模型的扩展

NaLP（2019）：将角色 - 键值对的向量拼接后输入卷积层，提取特征后用全连接层输出评分。NaLP 首次将 CNN 用于多元关系，但平等对待所有角色 - 键值对，忽略核心关联。
NaLP-Fix（2020）：在 NaLP 基础上优化负采样策略，提高模型稳定性，但未解决核心关联缺失问题。
HypE（2021）：为不同元数设计专用卷积核，增强对特定元数知识的建模，但灵活性不足，无法处理可变元数。

2. 超关系的表示学习模型

超关系保留主三元组和限定词，模型需区分核心与辅助信息，其核心挑战是如何有效融合主三元组与限定词的关联。

(1) 传统神经网络模型的扩展

NeuInfer （2020）：分别计算主三元组的有效性得分和主三元组与限定词的兼容性得分，加权求和得到总评分：
f(h,r,t,Q)=α⋅fmain(h,r,t)+(1−α)⋅fcomp(h,r,t,Q)
其中 fₘₐᵢₙ是主三元组评分，fₒₘₚ是兼容性评分（主三元组与每个限定词的交互得分）。NeuInfer 首次建模超关系，但特征提取较简单。
HINGE （2020）：将主三元组（h, r, t）与每个限定词（qₙ, qᵥ）拼接为五元组（h, r, qₙ, qᵥ, t），用卷积层提取特征后进行最小池化，聚合所有限定词的信息：
f(h,r,t,Q)=minq∈Qfconv(h,r,qn,qv,t)
HINGE 通过卷积捕捉主三元组与限定词的交互，但卷积操作和顺序训练导致时间复杂度高，难以应用于大规模图谱。

(2) 图神经网络模型的扩展

StarE （2021）：扩展 CompGCN，将限定词信息纳入实体向量更新过程，实体 v 的向量更新公式为：
hv=f(∑(u,r)∈N(v)Wλ(r)ϕr(hu,γ(hr,hq)vu))
其中 γ(hᵣ, h_q) 融合关系和限定词向量，φᵣ是组合函数。StarE 在解码阶段可搭配 ConvE、Transformer 等模型，在超关系预测中效果最佳，证明了 GNN 对复杂结构的建模能力。

表 2这张表像 "多元化关系模型对比表"，汇总多元和超关系模型的知识表示形式、模型类别、创新点和缺陷，例如 StarE 的创新点是引入 GNN 处理超关系，缺陷是主三元组与限定词的交互较简单。

图 13这张图像 "多元化模型特征提取对比图"，展示 NaLP（多元关系平等处理）、NeuInfer（主三元组 + 兼容性评分）、HINGE（主三元组与限定词卷积）的特征提取流程，直观呈现从多元到超关系的建模升级。

五.实验对比与分析：不同模型的 "实战表现"

为客观评估模型性能，需在标准数据集上进行实验，通过统一指标对比不同模型的链接预测效果。本节将介绍常用数据集、评测指标，并分析实验结果。

1. 常用数据集

(1) 二元关系数据集

FB15k：从 FreeBase 抽取，包含 14951 个实体、1245 个关系，训练集 483142 个三元组。存在数据泄露（测试集含训练集的逆向三元组）。
WN18：从 WordNet 抽取，包含 40943 个实体、18 个关系，聚焦词汇语义关系。同样存在数据泄露。
FB15k-237：FB15k 的优化版，删除 237 个核心关系外的冗余关系，解决数据泄露问题。
WN18RR：WN18 的优化版，删除冗余关系，保留 11 个关系，难度更高。
YAGO3-10：从 YAGO3 抽取，包含 123182 个实体、37 个关系，实体数多且含文本属性，数据泄露少。

(2) 多元关系数据集

JF17K：从 FreeBase 抽取，包含 28645 个实体、322 个关系，多元知识占比 45.9%，但存在严重数据泄露（测试集 44.5% 主三元组在训练集）。
Wikipeople：从 Wikidata 抽取，聚焦人物相关知识，多元知识占比仅 2.6%，测试不充分。

(3) 超关系数据集

WD50K：从 Wikidata 抽取，包含 47156 个实体、532 个关系，超关系知识占比 13.6%，删除泄露数据，更具挑战性。其子集 WD50K (33)、WD50K (66)、WD50K (100) 的超关系占比分别为 31.2%、64.5%、100%，用于测试模型对超关系比例的适应性。

表 4、表 5：这两张表像 "数据集属性表"，汇总二元关系数据集（表 4）和多元化关系数据集（表 5）的实体数、关系数、训练 / 验证 / 测试集规模等关键属性，方便对比数据集特点。

2. 评测指标

链接预测的核心是对候选实体或关系排序，常用指标包括：

平均秩（Mean Rank, MR）：正确答案在预测结果中的平均排名，值越小越好。但对异常值敏感，例如一个排名 1000 的结果会大幅拉高平均值。
平均倒数秩（Mean Reciprocal Rank, MRR）：正确答案排名倒数的平均值，值越大越好。MRR = (1/|Q|)Σ(1/rank (q))，对异常值更稳健。
命中比率（Hits@K）：排名≤K 的正确答案比例，值越大越好。常用 K=1、3、5、10，Hits@1 更关注 top1 准确性。

例如，若预测结果中正确答案的排名为 3，则其倒数秩为 1/3，Hits@1=0，Hits@3=1。MRR 和 Hits@K 是目前最常用的指标，能较全面反映模型性能。

3. 实验结果分析

(1) 二元关系模型对比

平移距离模型：RotatE 表现最佳，在 FB15k-237 的 Hits@1 达 0.426，MRR 达 0.336，旋转操作使其能处理多种关系类型；TransE 因无法处理复杂关系，效果较差。
张量分解模型：ComplEx 和 TuckER 效果突出，TuckER 在 YAGO3-10 的 MRR 达 0.544，共享核心张量增强了表达能力；DistMult 因对称性限制，在非对称关系数据集上效果较差。
传统神经网络模型：ConvR 在多个数据集表现优异，ConvE 次之，ConvKB 因简单卷积效果较差；CapsE 和 RSN 效果不稳定，仍需优化。
图神经网络模型：CompGCN 在复杂数据集上优势明显，证明信息传播机制能有效捕捉图结构特征。

(2) 多元关系模型对比

S2S 效果最佳，在 JF17K 的 MRR 达 0.528，共享嵌入片段解决了元数限制；GETD 在特定元数上表现好，但泛化性差；NaLP 因平等处理角色 - 键值对，效果最差。

(3) 超关系模型对比

StarE（+Transformer）效果最优，在 WD50K (100) 的 Hits@1 达 0.588，MRR 达 0.654，超关系占比越高，优势越明显；HINGE 次之，但复杂度高；NaLP-Fix 因未区分主次关系，效果最差。

表 6、表 7、表 8：这些表像 "实验结果对比表"，汇总不同模型在各数据集上的 MRR、Hits@1、Hits@10 指标，加粗数据为最优结果，直观呈现模型性能差异。

(4) 关键结论

模型表达能力：图神经网络 > 传统神经网络 > 张量分解 > 平移距离（整体趋势，具体因数据集而异）。
知识表示形式：超关系 > 多元关系 > 二元关系，更精准的知识表示能提升预测效果。
效率与效果平衡：平移距离模型效率最高，适合大规模图谱；图神经网络效果最佳，但计算复杂度高。

六.未来研究方向：挑战与机遇

尽管知识图谱表示学习已取得显著进展，但仍面临诸多挑战，未来可从以下方向突破：

1. 模型优化：提升可解释性与可扩展性

(1) 增强可解释性 ：现有神经网络模型多为 "黑箱"，预测结果难以解释。未来需结合逻辑规则（如将路径约束融入 GNN），或设计可解释的注意力机制，让模型 "说明" 预测依据，就像导航软件不仅给出路线，还解释选择理由。

(2) 提高可扩展性：大规模知识图谱（实体数超百万）对模型效率要求高。需研究稀疏参数化（如稀疏张量分解）、分布式训练（如分块处理实体）、在线学习（动态更新模型）等技术，降低计算复杂度。

2. 知识表示形式：融合更多结构与信息

(1) 融合层次与路径信息 ：知识图谱中的层次结构（如 "动物→哺乳动物→猫"）和关系路径（如 "朋友的朋友"）蕴含丰富语义，未来需设计新表示形式整合这些信息，例如将层次约束作为正则项融入模型。

(2) 引入多模态信息：实体的文本描述、图像等多模态信息可辅助关系预测，需设计跨模态表示学习模型，实现 "文本 - 图像 - 知识" 的联合建模。

3. 问题作用域：针对特定场景定制模型

(1) 低资源场景 ：小众领域知识图谱数据稀疏，需开发少样本 / 零样本学习模型，利用迁移学习（如从通用图谱迁移知识）或元学习（快速适应新关系）提高预测效果。

(2) 动态知识图谱 ：实体和关系随时间变化（如 "总统" 关系的更替），需设计时序表示学习模型，捕捉知识的动态演化，就像实时更新的导航地图。

(3) 跨语言知识图谱：多语言知识图谱的链接预测需解决语言差异，需设计跨语言表示模型，实现不同语言实体的对齐与关联预测。

七.总结

知识图谱表示学习是链接预测的核心技术，通过将实体和关系转换为向量，实现了知识的可计算性。本文从知识表示形式和建模方法两个维度，系统解读了面向链接预测的表示学习方法：

知识表示形式：从二元关系到多元关系再到超关系，演进趋势是更精准地刻画复杂知识，保留更多语义关联。
建模方法：平移距离模型基于空间平移，张量分解模型基于矩阵分解，传统神经网络模型基于特征提取，图神经网络模型基于信息传播，四类模型各有优劣，图神经网络在复杂场景中表现最佳。

实验结果表明，超关系表示形式结合图神经网络模型能取得最优预测效果，但模型的可解释性和可扩展性仍需提升。未来，随着技术的发展，知识图谱表示学习将在低资源、动态、跨模态等场景中发挥更大作用，为智能系统提供更完整、更可靠的知识支撑。

通过不断优化模型、丰富知识表示形式、拓展应用场景，知识图谱这张 "知识地图" 将越来越完善，为人工智能的认知智能发展奠定坚实基础。

尾

本期技术解构至此。

论文揭示的方法论范式对跨领域技术实践具有普适参考价值。下期将聚焦其他前沿成果，深入剖析其的突破路径。敬请持续关注，共同深挖工程实现脉络，淬炼创新底层逻辑，在学术与工程融合中洞见技术演进规律，推动领域范式持续进化。