2025 AAAI HLMEA: Unsupervised Entity Alignment Based on Hybrid Language Models

论文基本信息

题目: HLMEA: Unsupervised Entity Alignment Based on Hybrid Language Models (HLMEA: 基于混合语言模型的无监督实体对齐)
作者: Xiongnan Jin, Zhilin Wang, Jinpeng Chen, Liu Yang, Byungkook Oh, Seung-won Hwang, Jianqiang Li
机构: 深圳大学, 阿里巴巴集团, 北京邮电大学, 中南大学, 韩国建国大学, 韩国首尔国立大学等
发表地点与年份: AAAI 2025 (预印版)
关键词术语与定义 :
- Entity Alignment (EA): 实体对齐，旨在识别并链接不同知识图谱 (KGs) 中表示同一现实世界实体的不同实例。
- Unsupervised EA: 无监督实体对齐，指在不使用任何人工标注对齐种子的情况下完成 EA 任务。
- Large Language Models (LLMs): 大型语言模型，如 GPT 系列。
- Small Language Models (SLMs): 小型语言模型，指相对轻量级的预训练语言模型，如 BERT。
- Hybrid Language Models: 混合语言模型，本文特指 LLMs 和 SLMs 的协同工作框架。
- Textual Representation of Entities (TRE): 实体的文本表示，本文提出的一种将实体及其相关三元组转换为文本格式的方法。

摘要（详细复述）

背景: 实体对齐 (EA) 对于整合多源知识图谱至关重要。传统的无监督 EA 方法试图摆脱人工干预，但常受限于准确率。大型语言模型 (LLMs) 的出现为 EA 带来了新的机遇，但也引入了新的挑战：如何为 LLM 设计合适的 EA 问题形式，以及如何在无监督的情况下有效利用 LLM 蕴含的背景知识。
方案概述 : 论文提出了 HLMEA (Hybrid Language Model-based unsupervised EA)，一种新颖的基于混合语言模型的无监督 EA 方法。该方法将 EA 任务创新性地形式化为一个"过滤"和"单项选择"问题 ，并让小型语言模型 (SLMs) 和大型语言模型 (LLMs) 协同工作。
1. 过滤: SLMs 首先基于从 KG 三元组生成的文本表示，过滤出候选实体。
2. 选择 : LLMs 接着从 SLM 过滤后的候选中精确地选出语义最匹配的实体。
  该框架还包含一个迭代自训练机制，使得 SLMs 能够从 LLMs 的输出中"蒸馏"知识，从而在后续的迭代中提升二者协同对齐的能力。
主要结果/提升: 在多个基准数据集上的大量实验表明，HLMEA 的性能显著优于现有的无监督甚至有监督的 EA 基线方法，证明了其在大规模知识图谱上进行可扩展和高效实体对齐的潜力。
结论与意义: HLMEA 提出了一种创新的、结合 SLM 和 LLM 优势的无监督 EA 框架，通过巧妙的任务形式化和迭代自训练机制，有效地解决了 LLM-based EA 中的核心挑战，为无监督 EA 领域提供了新的 SOTA 方法。

研究背景与动机

学术/应用场景与痛点:
- 场景: 随着不同领域知识图谱的爆炸式增长，将这些异构、不完整的 KGs 进行融合（即实体对齐）成为支持问答、推理、检索等下游应用的关键技术。
- 痛点 :
  1. 对人工标注的依赖: 传统的主流 EA 方法（监督或半监督）需要昂贵的人工标注种子对齐作为训练数据，这限制了它们的可扩展性和适用范围。
  2. 无监督方法的性能瓶颈: 现有的无监督 EA 方法虽然消除了人工标注，但通常依赖于精心设计的内部结构或相似度度量，性能往往不如监督方法。
  3. LLM 应用于 EA 的挑战 :
    - 任务形式化挑战: 如何将图结构的 EA 问题转换为 LLM 能理解和处理的文本问题？直接将一个实体的成百上千个三元组和所有目标实体塞进 prompt 是不现实的，这会导致 prompt 过长、推理成本过高。
    - 无监督学习挑战: 在没有标注数据的情况下，如何利用 LLM 强大的背景知识来完成 EA 任务？LLM 无法直接进行监督微调。
主流路线与代表工作:
- 监督/半监督 EA: 使用人工标注的种子对进行训练，如 BootEA (自举法), MSNEA (多模态对比学习)。
- 无监督 EA (非 LLM): 依赖 KG 自身信息，如 UPLR (不确定性感知伪标签), SelfKG (自监督)。
- LLM-based EA: 近期的新兴方向，如 ChatEA，尝试将 KG 翻译为"代码"让 LLM 理解。
代表工作与局限总结:

方法类别	代表工作	优点	不足
监督/半监督 EA	BootEA, MSNEA	性能通常较高。	依赖昂贵的人工标注，扩展性差。
无监督 EA	UPLR, SelfKG	无需人工标注，适用性广。	性能通常有瓶颈，不如监督方法。
LLM-based EA	ChatEA	尝试利用 LLM 的强大能力。	依赖大型 LLM 和额外的实体描述，资源消耗大；任务形式化仍不成熟。

HLMEA 的动机正是要系统性地解决上述痛点：设计一个完全无监督 的框架，巧妙地结合 SLM 的效率和 LLM 的精度 ，通过一种新颖的过滤-选择任务范式，有效应对 LLM 应用于 EA 的核心挑战。

问题定义（形式化）

传统 EA 问题定义:
- 输入 : 源知识图谱 KGsKG_sKGs 和目标知识图谱 KGtKG_tKGt。
- 输出 : 一个对齐实体对的集合 A={(se,te)∣se∈KGs,te∈KGt,se≡te}A = \{(s_e, t_e) | s_e \in KG_s, t_e \in KG_t, s_e \equiv t_e\}A={(se,te)∣se∈KGs,te∈KGt,se≡te}，其中 ≡\equiv≡ 表示等价关系。
LLM-based EA (LEA) 问题定义 (本文形式化):
- 输入 :
  - 一个源实体 se∈KGss_e \in KG_sse∈KGs。
  - 一组目标实体 Te⊂KGtT_e \subset KG_tTe⊂KGt。
  - 一个精心设计的 prompt，包含任务指令以及 ses_ese 和 TeT_eTe 的符号-语义信息。
- 目标 : 利用 LLM 的能力，从 TeT_eTe 中选出与 ses_ese 最相似的一个实体 tet_ete。
HLMEA 的过滤-选择问题形式化:
1. 过滤阶段 (SLM) :
  - 输入: 源实体 ses_ese 和所有目标实体 Et⊂KGtE_t \subset KG_tEt⊂KGt。
  - 输出: 一个经过 SLM 筛选后的、规模较小的候选目标实体集 testestes (top-k)。
2. 选择阶段 (LLM) :
  - 输入: 源实体 ses_ese 和 SLM 筛选出的候选集 testestes。
  - 输出: LLM 从 testestes 中选出的最终对齐实体 tet_ete。

创新点（逐条可验证）

创新的"过滤-选择"两阶段 EA 范式 : 论文首次将无监督 EA 任务形式化为 SLM 负责粗粒度"过滤"和 LLM 负责细粒度"选择"的两阶段问题。如何做 : 使用 SLM (如 BERT) 对所有实体对进行高效的相似度初筛，选出 Top-k 候选；然后将这些少量候选与源实体打包成一个简短的 prompt 交给 LLM 进行最终决策。为什么有效 : 这种范式巧妙地结合了 SLM 的高效率 （可处理海量实体对）和 LLM 的高精度（强大的语义理解能力），解决了直接使用 LLM 进行全量比较的计算瓶颈和 prompt 长度限制问题。
设计了有效的实体文本表示 (TRE) 和选择策略 : 为了让语言模型能处理图数据，论文设计了 Textual Representation of Entities (TRE)。如何做 : TRE 通过一种类似 TF-IDF 的加权策略 (PF-IKF) 从实体的众多三元组中选取信息量最丰富的 top-m 个，并将其序列化为文本。为什么有效 : TRE 在保留实体核心信息的同时，极大地压缩了文本长度，使其适用于 SLM/LLM 的输入。PF-IKF 策略确保了选出的三元组既具有实体内的特异性 (PF) ，又在全局具有一定的稀有性 (IKF)，信息含量高。
提出 SLM-LLM 协同的迭代自训练机制 : 这是实现无监督学习的关键。该机制使得 SLM 能够从 LLM 的高质量输出中持续学习，从而提升整个混合系统的性能。如何做 : 在每一轮迭代中，将 LLM 通过多数投票确认的对齐结果作为正样本，并通过一种巧妙的"顺序违背"策略采样负样本，共同构成训练数据来微调 SLM。为什么有效 : 这个闭环学习过程实现了知识从 LLM 到 SLM 的蒸馏。微调后的 SLM 能更准确地为 LLM 筛选候选，而更高质量的候选又帮助 LLM 做出更准确的判断，形成一个正向增强循环，协同提升了 EA 性能。

方法与核心思路（重点展开）

整体框架

HLMEA 是一个多轮迭代的框架。在每一轮中，它都顺序执行四个核心模块：目标实体选择 (SLM 过滤)、LLM 标注、多数投票和 SLM 自训练。
Iteration Round p SLM_p filters Prompt Prompt Run n times Final Alignment Training Data Fine-tunes SLM_p1 1. Target Entity Selection Source Entity s_e Top-k Target Entities tes 2. LLM Annotation n LLM Outputs 3. Majority Voting EA Result 4. SLM Self-training SLM_p1 for next round

步骤分解与模块交互

实体的文本表示 (TRE) 生成 (预处理)
- 目标: 将图中的一个实体及其邻域转换为一段简洁的文本。
- 流程 :
  - 对于一个实体 eee，其三元组按谓词角色分为三类：属性 (attribute), 出向关系 (relation-out), 入向关系 (relation-in)。
  - 为了从可能成百上千的三元组中选出最有信息量的 mmm 个，论文设计了 PF-IKF 评分。
    - Predicate Frequency (PF) : 谓词 ppp 在实体 eee 的三元组中出现的频率。
      PF(p,e)=∣triple(e)(p)∣∣triple(e)(⋅)∣ PF(p, e) = \frac{|\text{triple}(e)(p)|}{|\text{triple}(e)(\cdot)|} PF(p,e)=∣triple(e)(⋅)∣∣triple(e)(p)∣
      这衡量了谓词对该实体的局部重要性。
    - Inverse Knowledge Frequency (IKF) : 类似 IDF，谓词 ppp 在整个 KG 中出现的实体数量的倒数。
      IKF(p,KG)=∣entity(KG)(p)∣∣entity(KG)(⋅)∣ IKF(p, KG) = \frac{|\text{entity}(KG)(p)|}{|\text{entity}(KG)(\cdot)|} IKF(p,KG)=∣entity(KG)(⋅)∣∣entity(KG)(p)∣
      （原文公式如此，但从名称看更像是频率而非逆频率，或应取倒数或对数，此处按原文解读）这衡量了谓词的全局稀有性。
    - 最终得分 :
      PF−IKF(p,KG)=PF(p,e)×IKF(p,KG) PF-IKF(p, KG) = PF(p, e) \times IKF(p, KG) PF−IKF(p,KG)=PF(p,e)×IKF(p,KG)
  - 根据 PF-IKF 分数，从三类三元组中分别选取 top-m 个谓词对应的三元组，并随机选择一个（如果一个谓词对应多个三元组）。
  - 最后，将选出的三元组序列化为文本，并缩写 KG 的 URI 前缀以减少长度。Table 1 展示了一个 TRE 示例。
模块一：目标实体选择 (SLM 过滤)
- 功能 : 对于一个源实体 ses_ese，从海量的目标实体中高效地筛选出最相似的 Top-k 个候选。
- 实现 :
  - 使用一个预训练的 SLM (如 LaBSE) 将源实体和所有目标实体的 TRE 编码为实体嵌入。
  - 计算 ses_ese 与每个目标实体 tet_ete 的嵌入之间的相似度。论文使用了 Central Moment Discrepancy (CMD) 作为距离度量，CMD 值越小表示相似度越高。
  - 根据相似度排序，选取 Top-k 个目标实体作为候选集 testestes。
模块二 & 三：LLM 标注与多数投票
- 功能: 从 SLM 筛选出的 Top-k 候选中，精确地选出最终的对齐实体。
- 实现 :
  - 构建一个 prompt，包含任务指令、一个示例 (demonstration) 和一个查询。查询部分包含了源实体 ses_ese 的 TRE 和 Top-k 候选实体 testestes 的 TREs。
  - 将该 prompt 发送给 LLM，要求它从中做出单项选择。
  - 由于 LLM 的输出可能不稳定（存在幻觉），这个过程会独立重复 nnn 次。
  - 使用多数投票 (Majority Voting) 聚合 nnn 次的结果。获得票数最多的实体被选为最终的对齐实体。
  - 平票处理: 如果出现平票，则优先选择在 SLM 过滤阶段排名（即相似度）更高的那个实体。这巧妙地利用了 SLM 的信息来打破僵局。
模块四：SLM 自训练
- 功能: 核心创新点。利用 LLM 的输出结果来微调 SLM，实现知识蒸馏。
- 训练数据生成 :
  - 对于每个源实体 ses_ese，生成一个三元组 (TRE_se, TRE_pos, TRE_neg)。
  - 正样本 (TREposTRE_{pos}TREpos): LLM 多数投票选出的对齐实体。
  - 负样本 (TREnegTRE_{neg}TREneg) : 这是最巧妙的设计。负样本的选择原则是："被 SLM 认为很相似，但 LLM 却没有选择它"。具体做法是，比较 SLM 的相似度排序和 LLM 的投票数排序，找到第一个"顺序违背"的实体。例如，在 Table 2 中，对于 Frank_Simek，SLM 认为 Will_Lee_(Musiker) 是第二相似的 (rank 2)，但它的票数排在第三 (rank 3)。这个顺序上的不一致表明 SLM 对它的判断可能是有偏差的，因此 Will_Lee_(Musiker) 被选为负样本。
- 微调 : 使用生成的 (正, 负) 对数据，通过一个pairwise margin-based loss 来微调 SLM。这个损失函数的目标是让正样本对的相似度高于负样本对。

迭代循环

整个框架会迭代 rrr 轮 。在第 ppp 轮，使用微调后的 SLM(p)SLM_{(p)}SLM(p) 进行过滤；然后 LLM 基于更精准的候选进行选择；最后，LLM 的输出又被用来生成新的训练数据，微调出更强的 SLM(p+1)SLM_{(p+1)}SLM(p+1) 用于下一轮。这个过程形成了一个自我强化的闭环。

实验设置

数据集 :
- 双语数据集: DBP15K (ZH-EN, JA-EN, FR-EN, DE-EN, FR-EN)
- 单语数据集: DW15K, DY15K
- 大规模数据集: DBP100K (DE-EN, FR-EN)
对比基线 :
- 无监督: MultiKE, SelfKG, UPLR, SLOTAlign (unimodal); EVA, MCLEA, XGEA (multimodal) 等。
- 有监督: BootEA, RDGCN, GAEA, RHGN (使用 20% 种子)。
评价指标: Hit@k (k=1, 3, 5, 10, 20), MRR, LLM Accuracy (LA = Hit@1/Hit@k)。
实现细节 :
- LLMs: ChatGPT (gpt-3.5-turbo-1106), ERNIE-3.5-8K, Qwen-7B。
- SLMs: LaBSE, E5, MPNet, MiniLM。
- 超参数 : n=3n=3n=3 (LLM重复次数), k∈k \ink∈ (候选数)。
- 硬件: AMD Ryzen 9 7950X, 128GB RAM, NVIDIA RTX A6000 GPU。

实验结果与分析

主结果分析 (Table 3, 4, 5):
- 全面超越 SOTA : HLMEA 在所有 DBP15K 数据集上，其 Hit@1 指标不仅超越了所有无监督 基线（包括利用图像、描述等辅助信息的多模态方法），甚至超过了使用 20% 人工标注的有监督基线。例如，在 DBP15KDE-EN 数据集上，HLMEA (0.955) 比有监督的 SOTA RDGCN (0.830) 高出 12.5%。
- 可扩展性: 在 DBP100K 大规模数据集上，HLMEA 的优势更加明显，平均 Hit@1 (0.912) 比有监督 SOTA RDGCN (0.681) 高出 23.1%，证明了其处理大规模 KGs 的能力。
实体信息压缩效果 (Q2, Figure 3a):
- 实验表明，TRE 中包含的三元组数量 mmm 并非越多越好。当 m=5m=5m=5 时，Hit@1 达到峰值，同时 LLM 的输入上下文长度和推理时间都显著减少。这证明了 PF-IKF 策略能有效提取核心信息，实现了信息压缩与性能的平衡。
SLM-LLM 合作效果 (Q3, Figure 3b,c,d):
- Figure 3b 显示，经过一轮自训练 (R0 -> R1)，SLM 筛选候选的能力 (Hit@5) 显著提升。
- Figure 3c 显示，由于 SLM 提供了更高质量的候选，LLM 的选择准确率 (LA) 也随之提升。
- Figure 3d 显示，二者的协同作用最终带来了整体 EA 性能 (Hit@1) 的持续增长。这有力地验证了迭代自训练机制的有效性。
消融实验 (Q4, Figure 4, 5, 6, 7):
- TRE 生成策略: PF-IKF 策略显著优于随机选择策略 (Figure 4)。
- LLM 类型: 闭源的 LLM (ChatGPT, ERNIE) 性能普遍优于开源的 Qwen-7B (Figure 5)。
- SLM 类型: 模型参数规模更大的 SLM (如 e5, LaBSE) 性能通常更好，但并非绝对 (Figure 6)。
- 候选数量 k : 增加 kkk 能提升性能，但当 kkk 从 10 增加到 20 时，性能提升不明显，而成本增加。这表明 k=10k=10k=10 是一个较好的权衡点 (Figure 7)。
成本分析: 论文估算，使用 ChatGPT 进行一次 EA 的成本约为 $0.009 美元，远低于人工标注的$ 2.2 美元，展示了其在经济上的巨大优势。

复现性清单

代码/数据 : 论文在摘要中提供了 GitHub 链接：https://github.com/xnjin-ai/HLMEA。
实现细节: 论文提供了详细的实验环境、软件版本和超参数设置。
模型: 明确列出了使用的所有开源和闭源 LLM/SLM 的型号和版本。

结论与未来工作

结论: 论文提出了一个创新的无监督实体对齐框架 HLMEA，通过结合 SLM 和 LLM，并引入迭代自训练机制，实现了在多个基准数据集上的 SOTA 性能，甚至超越了有监督方法。该工作在有效性、可扩展性和成本效益上均表现出色。
未来工作: 论文希望能启发更多将 LLMs 融入下游任务的研究。