2025 AAAI HLMEA: Unsupervised Entity Alignment Based on Hybrid Language Models

论文基本信息

  • 题目: HLMEA: Unsupervised Entity Alignment Based on Hybrid Language Models (HLMEA: 基于混合语言模型的无监督实体对齐)
  • 作者: Xiongnan Jin, Zhilin Wang, Jinpeng Chen, Liu Yang, Byungkook Oh, Seung-won Hwang, Jianqiang Li
  • 机构: 深圳大学, 阿里巴巴集团, 北京邮电大学, 中南大学, 韩国建国大学, 韩国首尔国立大学等
  • 发表地点与年份: AAAI 2025 (预印版)
  • 关键词术语与定义 :
    • Entity Alignment (EA): 实体对齐,旨在识别并链接不同知识图谱 (KGs) 中表示同一现实世界实体的不同实例。
    • Unsupervised EA: 无监督实体对齐,指在不使用任何人工标注对齐种子的情况下完成 EA 任务。
    • Large Language Models (LLMs): 大型语言模型,如 GPT 系列。
    • Small Language Models (SLMs): 小型语言模型,指相对轻量级的预训练语言模型,如 BERT。
    • Hybrid Language Models: 混合语言模型,本文特指 LLMs 和 SLMs 的协同工作框架。
    • Textual Representation of Entities (TRE): 实体的文本表示,本文提出的一种将实体及其相关三元组转换为文本格式的方法。

摘要(详细复述)

  • 背景: 实体对齐 (EA) 对于整合多源知识图谱至关重要。传统的无监督 EA 方法试图摆脱人工干预,但常受限于准确率。大型语言模型 (LLMs) 的出现为 EA 带来了新的机遇,但也引入了新的挑战:如何为 LLM 设计合适的 EA 问题形式,以及如何在无监督的情况下有效利用 LLM 蕴含的背景知识。
  • 方案概述 : 论文提出了 HLMEA (Hybrid Language Model-based unsupervised EA),一种新颖的基于混合语言模型的无监督 EA 方法。该方法将 EA 任务创新性地形式化为一个"过滤"和"单项选择"问题 ,并让小型语言模型 (SLMs) 和大型语言模型 (LLMs) 协同工作。
    1. 过滤: SLMs 首先基于从 KG 三元组生成的文本表示,过滤出候选实体。
    2. 选择 : LLMs 接着从 SLM 过滤后的候选中精确地选出语义最匹配的实体。
      该框架还包含一个迭代自训练机制,使得 SLMs 能够从 LLMs 的输出中"蒸馏"知识,从而在后续的迭代中提升二者协同对齐的能力。
  • 主要结果/提升: 在多个基准数据集上的大量实验表明,HLMEA 的性能显著优于现有的无监督甚至有监督的 EA 基线方法,证明了其在大规模知识图谱上进行可扩展和高效实体对齐的潜力。
  • 结论与意义: HLMEA 提出了一种创新的、结合 SLM 和 LLM 优势的无监督 EA 框架,通过巧妙的任务形式化和迭代自训练机制,有效地解决了 LLM-based EA 中的核心挑战,为无监督 EA 领域提供了新的 SOTA 方法。

研究背景与动机

  • 学术/应用场景与痛点:

    • 场景: 随着不同领域知识图谱的爆炸式增长,将这些异构、不完整的 KGs 进行融合(即实体对齐)成为支持问答、推理、检索等下游应用的关键技术。
    • 痛点 :
      1. 对人工标注的依赖: 传统的主流 EA 方法(监督或半监督)需要昂贵的人工标注种子对齐作为训练数据,这限制了它们的可扩展性和适用范围。
      2. 无监督方法的性能瓶颈: 现有的无监督 EA 方法虽然消除了人工标注,但通常依赖于精心设计的内部结构或相似度度量,性能往往不如监督方法。
      3. LLM 应用于 EA 的挑战 :
        • 任务形式化挑战: 如何将图结构的 EA 问题转换为 LLM 能理解和处理的文本问题?直接将一个实体的成百上千个三元组和所有目标实体塞进 prompt 是不现实的,这会导致 prompt 过长、推理成本过高。
        • 无监督学习挑战: 在没有标注数据的情况下,如何利用 LLM 强大的背景知识来完成 EA 任务?LLM 无法直接进行监督微调。
  • 主流路线与代表工作:

    • 监督/半监督 EA: 使用人工标注的种子对进行训练,如 BootEA (自举法), MSNEA (多模态对比学习)。
    • 无监督 EA (非 LLM): 依赖 KG 自身信息,如 UPLR (不确定性感知伪标签), SelfKG (自监督)。
    • LLM-based EA: 近期的新兴方向,如 ChatEA,尝试将 KG 翻译为"代码"让 LLM 理解。
  • 代表工作与局限总结:

方法类别 代表工作 优点 不足
监督/半监督 EA BootEA, MSNEA 性能通常较高。 依赖昂贵的人工标注,扩展性差。
无监督 EA UPLR, SelfKG 无需人工标注,适用性广。 性能通常有瓶颈,不如监督方法。
LLM-based EA ChatEA 尝试利用 LLM 的强大能力。 依赖大型 LLM 和额外的实体描述,资源消耗大;任务形式化仍不成熟。

HLMEA 的动机正是要系统性地解决上述痛点:设计一个完全无监督 的框架,巧妙地结合 SLM 的效率和 LLM 的精度 ,通过一种新颖的过滤-选择任务范式,有效应对 LLM 应用于 EA 的核心挑战。

问题定义(形式化)

  • 传统 EA 问题定义:

    • 输入 : 源知识图谱 KGsKG_sKGs 和目标知识图谱 KGtKG_tKGt。
    • 输出 : 一个对齐实体对的集合 A={(se,te)∣se∈KGs,te∈KGt,se≡te}A = \{(s_e, t_e) | s_e \in KG_s, t_e \in KG_t, s_e \equiv t_e\}A={(se,te)∣se∈KGs,te∈KGt,se≡te},其中 ≡\equiv≡ 表示等价关系。
  • LLM-based EA (LEA) 问题定义 (本文形式化):

    • 输入 :
      • 一个源实体 se∈KGss_e \in KG_sse∈KGs。
      • 一组目标实体 Te⊂KGtT_e \subset KG_tTe⊂KGt。
      • 一个精心设计的 prompt,包含任务指令以及 ses_ese 和 TeT_eTe 的符号-语义信息。
    • 目标 : 利用 LLM 的能力,从 TeT_eTe 中选出与 ses_ese 最相似的一个实体 tet_ete。
  • HLMEA 的过滤-选择问题形式化:

    1. 过滤阶段 (SLM) :
      • 输入: 源实体 ses_ese 和所有 目标实体 Et⊂KGtE_t \subset KG_tEt⊂KGt。
      • 输出: 一个经过 SLM 筛选后的、规模较小的候选目标实体集 testestes (top-k)。
    2. 选择阶段 (LLM) :
      • 输入: 源实体 ses_ese 和 SLM 筛选出的候选集 testestes。
      • 输出: LLM 从 testestes 中选出的最终对齐实体 tet_ete。

创新点(逐条可验证)

  1. 创新的"过滤-选择"两阶段 EA 范式 : 论文首次将无监督 EA 任务形式化为 SLM 负责粗粒度"过滤"和 LLM 负责细粒度"选择"的两阶段问题。如何做 : 使用 SLM (如 BERT) 对所有实体对进行高效的相似度初筛,选出 Top-k 候选;然后将这些少量候选与源实体打包成一个简短的 prompt 交给 LLM 进行最终决策。为什么有效 : 这种范式巧妙地结合了 SLM 的高效率 (可处理海量实体对)和 LLM 的高精度(强大的语义理解能力),解决了直接使用 LLM 进行全量比较的计算瓶颈和 prompt 长度限制问题。

  2. 设计了有效的实体文本表示 (TRE) 和选择策略 : 为了让语言模型能处理图数据,论文设计了 Textual Representation of Entities (TRE)。如何做 : TRE 通过一种类似 TF-IDF 的加权策略 (PF-IKF) 从实体的众多三元组中选取信息量最丰富的 top-m 个,并将其序列化为文本。为什么有效 : TRE 在保留实体核心信息的同时,极大地压缩了文本长度,使其适用于 SLM/LLM 的输入。PF-IKF 策略确保了选出的三元组既具有实体内的特异性 (PF) ,又在全局具有一定的稀有性 (IKF),信息含量高。

  3. 提出 SLM-LLM 协同的迭代自训练机制 : 这是实现无监督学习的关键。该机制使得 SLM 能够从 LLM 的高质量输出中持续学习,从而提升整个混合系统的性能。如何做 : 在每一轮迭代中,将 LLM 通过多数投票确认的对齐结果作为正样本,并通过一种巧妙的"顺序违背"策略采样负样本,共同构成训练数据来微调 SLM。为什么有效 : 这个闭环学习过程实现了知识从 LLM 到 SLM 的蒸馏 。微调后的 SLM 能更准确地为 LLM 筛选候选,而更高质量的候选又帮助 LLM 做出更准确的判断,形成一个正向增强循环,协同提升了 EA 性能。

方法与核心思路(重点展开)

整体框架

HLMEA 是一个多轮迭代的框架。在每一轮中,它都顺序执行四个核心模块:目标实体选择 (SLM 过滤)、LLM 标注、多数投票和 SLM 自训练。
Iteration Round p SLM_p filters Prompt Prompt Run n times Final Alignment Training Data Fine-tunes SLM_p1 1. Target Entity Selection Source Entity s_e Top-k Target Entities tes 2. LLM Annotation n LLM Outputs 3. Majority Voting EA Result 4. SLM Self-training SLM_p1 for next round

步骤分解与模块交互
  1. 实体的文本表示 (TRE) 生成 (预处理)

    • 目标: 将图中的一个实体及其邻域转换为一段简洁的文本。
    • 流程 :
      • 对于一个实体 eee,其三元组按谓词角色分为三类:属性 (attribute), 出向关系 (relation-out), 入向关系 (relation-in)。
      • 为了从可能成百上千的三元组中选出最有信息量的 mmm 个,论文设计了 PF-IKF 评分。
        • Predicate Frequency (PF) : 谓词 ppp 在实体 eee 的三元组中出现的频率。
          PF(p,e)=∣triple(e)(p)∣∣triple(e)(⋅)∣ PF(p, e) = \frac{|\text{triple}(e)(p)|}{|\text{triple}(e)(\cdot)|} PF(p,e)=∣triple(e)(⋅)∣∣triple(e)(p)∣
          这衡量了谓词对该实体的局部重要性
        • Inverse Knowledge Frequency (IKF) : 类似 IDF,谓词 ppp 在整个 KG 中出现的实体数量的倒数。
          IKF(p,KG)=∣entity(KG)(p)∣∣entity(KG)(⋅)∣ IKF(p, KG) = \frac{|\text{entity}(KG)(p)|}{|\text{entity}(KG)(\cdot)|} IKF(p,KG)=∣entity(KG)(⋅)∣∣entity(KG)(p)∣
          (原文公式如此,但从名称看更像是频率而非逆频率,或应取倒数或对数,此处按原文解读)这衡量了谓词的全局稀有性
        • 最终得分 :
          PF−IKF(p,KG)=PF(p,e)×IKF(p,KG) PF-IKF(p, KG) = PF(p, e) \times IKF(p, KG) PF−IKF(p,KG)=PF(p,e)×IKF(p,KG)
      • 根据 PF-IKF 分数,从三类三元组中分别选取 top-m 个谓词对应的三元组,并随机选择一个(如果一个谓词对应多个三元组)。
      • 最后,将选出的三元组序列化为文本,并缩写 KG 的 URI 前缀以减少长度。Table 1 展示了一个 TRE 示例。
  2. 模块一:目标实体选择 (SLM 过滤)

    • 功能 : 对于一个源实体 ses_ese,从海量的目标实体中高效地筛选出最相似的 Top-k 个候选。
    • 实现 :
      • 使用一个预训练的 SLM (如 LaBSE) 将源实体和所有目标实体的 TRE 编码为实体嵌入。
      • 计算 ses_ese 与每个目标实体 tet_ete 的嵌入之间的相似度。论文使用了 Central Moment Discrepancy (CMD) 作为距离度量,CMD 值越小表示相似度越高。
      • 根据相似度排序,选取 Top-k 个目标实体作为候选集 testestes。
  3. 模块二 & 三:LLM 标注与多数投票

    • 功能: 从 SLM 筛选出的 Top-k 候选中,精确地选出最终的对齐实体。
    • 实现 :
      • 构建一个 prompt,包含任务指令、一个示例 (demonstration) 和一个查询。查询部分包含了源实体 ses_ese 的 TRE 和 Top-k 候选实体 testestes 的 TREs。
      • 将该 prompt 发送给 LLM,要求它从中做出单项选择
      • 由于 LLM 的输出可能不稳定(存在幻觉),这个过程会独立重复 nnn 次
      • 使用多数投票 (Majority Voting) 聚合 nnn 次的结果。获得票数最多的实体被选为最终的对齐实体。
      • 平票处理: 如果出现平票,则优先选择在 SLM 过滤阶段排名(即相似度)更高的那个实体。这巧妙地利用了 SLM 的信息来打破僵局。
  4. 模块四:SLM 自训练

    • 功能: 核心创新点。利用 LLM 的输出结果来微调 SLM,实现知识蒸馏。
    • 训练数据生成 :
      • 对于每个源实体 ses_ese,生成一个三元组 (TRE_se, TRE_pos, TRE_neg)
      • 正样本 (TREposTRE_{pos}TREpos): LLM 多数投票选出的对齐实体。
      • 负样本 (TREnegTRE_{neg}TREneg) : 这是最巧妙的设计。负样本的选择原则是:"被 SLM 认为很相似,但 LLM 却没有选择它"。具体做法是,比较 SLM 的相似度排序和 LLM 的投票数排序,找到第一个"顺序违背"的实体。例如,在 Table 2 中,对于 Frank_Simek,SLM 认为 Will_Lee_(Musiker) 是第二相似的 (rank 2),但它的票数排在第三 (rank 3)。这个顺序上的不一致表明 SLM 对它的判断可能是有偏差的,因此 Will_Lee_(Musiker) 被选为负样本。
    • 微调 : 使用生成的 (正, 负) 对数据,通过一个pairwise margin-based loss 来微调 SLM。这个损失函数的目标是让正样本对的相似度高于负样本对。
迭代循环

整个框架会迭代 rrr 轮 。在第 ppp 轮,使用微调后的 SLM(p)SLM_{(p)}SLM(p) 进行过滤;然后 LLM 基于更精准的候选进行选择;最后,LLM 的输出又被用来生成新的训练数据,微调出更强的 SLM(p+1)SLM_{(p+1)}SLM(p+1) 用于下一轮。这个过程形成了一个自我强化的闭环。

实验设置

  • 数据集 :
    • 双语数据集: DBP15K (ZH-EN, JA-EN, FR-EN, DE-EN, FR-EN)
    • 单语数据集: DW15K, DY15K
    • 大规模数据集: DBP100K (DE-EN, FR-EN)
  • 对比基线 :
    • 无监督: MultiKE, SelfKG, UPLR, SLOTAlign (unimodal); EVA, MCLEA, XGEA (multimodal) 等。
    • 有监督: BootEA, RDGCN, GAEA, RHGN (使用 20% 种子)。
  • 评价指标: Hit@k (k=1, 3, 5, 10, 20), MRR, LLM Accuracy (LA = Hit@1/Hit@k)。
  • 实现细节 :
    • LLMs: ChatGPT (gpt-3.5-turbo-1106), ERNIE-3.5-8K, Qwen-7B。
    • SLMs: LaBSE, E5, MPNet, MiniLM。
    • 超参数 : n=3n=3n=3 (LLM重复次数), k∈k \ink∈ (候选数)。
    • 硬件: AMD Ryzen 9 7950X, 128GB RAM, NVIDIA RTX A6000 GPU。

实验结果与分析

  • 主结果分析 (Table 3, 4, 5):

    • 全面超越 SOTA : HLMEA 在所有 DBP15K 数据集上,其 Hit@1 指标不仅超越了所有无监督 基线(包括利用图像、描述等辅助信息的多模态方法),甚至超过了使用 20% 人工标注的有监督基线。例如,在 DBP15KDE-EN 数据集上,HLMEA (0.955) 比有监督的 SOTA RDGCN (0.830) 高出 12.5%。
    • 可扩展性: 在 DBP100K 大规模数据集上,HLMEA 的优势更加明显,平均 Hit@1 (0.912) 比有监督 SOTA RDGCN (0.681) 高出 23.1%,证明了其处理大规模 KGs 的能力。
  • 实体信息压缩效果 (Q2, Figure 3a):

    • 实验表明,TRE 中包含的三元组数量 mmm 并非越多越好。当 m=5m=5m=5 时,Hit@1 达到峰值,同时 LLM 的输入上下文长度和推理时间都显著减少。这证明了 PF-IKF 策略能有效提取核心信息,实现了信息压缩与性能的平衡。
  • SLM-LLM 合作效果 (Q3, Figure 3b,c,d):

    • Figure 3b 显示,经过一轮自训练 (R0 -> R1),SLM 筛选候选的能力 (Hit@5) 显著提升。
    • Figure 3c 显示,由于 SLM 提供了更高质量的候选,LLM 的选择准确率 (LA) 也随之提升。
    • Figure 3d 显示,二者的协同作用最终带来了整体 EA 性能 (Hit@1) 的持续增长。这有力地验证了迭代自训练机制的有效性。
  • 消融实验 (Q4, Figure 4, 5, 6, 7):

    • TRE 生成策略: PF-IKF 策略显著优于随机选择策略 (Figure 4)。
    • LLM 类型: 闭源的 LLM (ChatGPT, ERNIE) 性能普遍优于开源的 Qwen-7B (Figure 5)。
    • SLM 类型: 模型参数规模更大的 SLM (如 e5, LaBSE) 性能通常更好,但并非绝对 (Figure 6)。
    • 候选数量 k : 增加 kkk 能提升性能,但当 kkk 从 10 增加到 20 时,性能提升不明显,而成本增加。这表明 k=10k=10k=10 是一个较好的权衡点 (Figure 7)。
  • 成本分析: 论文估算,使用 ChatGPT 进行一次 EA 的成本约为 0.009 美元,远低于人工标注的 2.2 美元,展示了其在经济上的巨大优势。

复现性清单

  • 代码/数据 : 论文在摘要中提供了 GitHub 链接:https://github.com/xnjin-ai/HLMEA
  • 实现细节: 论文提供了详细的实验环境、软件版本和超参数设置。
  • 模型: 明确列出了使用的所有开源和闭源 LLM/SLM 的型号和版本。

结论与未来工作

  • 结论: 论文提出了一个创新的无监督实体对齐框架 HLMEA,通过结合 SLM 和 LLM,并引入迭代自训练机制,实现了在多个基准数据集上的 SOTA 性能,甚至超越了有监督方法。该工作在有效性、可扩展性和成本效益上均表现出色。

  • 未来工作: 论文希望能启发更多将 LLMs 融入下游任务的研究。

相关推荐
wangchong9159111 小时前
Java集合框架深度解析掌握ArrayList与LinkedList的性能差异与最佳实践
知识图谱
技术支持者python,php12 小时前
海康相机拍照与上传图像识别系统
知识图谱
GoldenSpider.AI2 天前
划时代的技术飞跃:OpenAI DevDay 2025 全面深度解读
人工智能·chatgpt·codex·openai devday·gpt-5·sam altman·sora 2
金井PRATHAMA2 天前
符号主义对自然语言处理深层语义分析的影响与启示
人工智能·自然语言处理·知识图谱
Funny_AI_LAB2 天前
OpenAI DevDay 2025:ChatGPT 进化为平台,开启 AI 应用新纪元
人工智能·ai·语言模型·chatgpt
tzc_fly2 天前
AI作为操作系统已经不能阻挡了,尽管它还没来
人工智能·chatgpt
realhuizhu2 天前
📚 技术人的阅读提效神器:多语言智能中文摘要生成指令
人工智能·ai·chatgpt·prompt·提示词·总结·deepseek·摘要
皇族崛起2 天前
金融 - 搭建 图谱挖掘工作流 调研
金融·llm·知识图谱·neo4j·多智能体·findpaper