RULE (ICLR 2026)

定义

单个图内部。 实体-属性对是

表示第 i 个实体,表示这个实体的第 m 个属性,是一个二值标记,等于1表示它们之间存在有效的"实体内部对应关系";

跨图的实体对齐。 实体-实体对为

xi 来自第一个图,x~j 来自第二个图,波浪号 ~ 只是用来区分"另一个图里的对象"。其中 yij​=1

表示 xix~j 指的是同一个现实世界中的对象;

方法

不确定性建模

对于给定实体 xi ,对每个候选实体j ,模型会产生一个证据值eij 。这个eij 表示:对于" xi 应该和第j 个候选实体匹配"这件事,模型目前积累了多少支持证据。通常有 eij≥0,证据越大,说明模型越倾向于支持这个候选。

接着,作者定义,防止eij=0导致Qi=0

然后定义"总置信强度"。可以把它理解为:模型对这个实体 xi 到底掌握了多少整体信息。Qi​ 越大,说明模型积累的总证据越多;Qi 越小,说明模型掌握的信息越少。

下面再看两个核心量。

第一个是belief mass

它表示:在所有总强度 Qi 中,有多少比例被分配给" xi 匹配第 j 个候选实体"这个判断。注意这里分子用的是 eij ,不是αij 。这说明belief mass 只统计"额外证据"本身,不把那个人为加进去的1 算作真正的支持信息。

第二个是 uncertainty

N~ 可以理解为"候选匹配目标个数"。这个式子说明不确定性Qi ​ 成反比。总强度 Qi 越大,不确定性 ui​ 越小;总强度越小,不确定性越大。

现在来验证为什么有

因为

所以

总结:

对于实体xi ,作者不是直接输出"它和谁匹配"的概率,而是先通过证据eij 构造 Dirichlet 分布,再把判断分解为"对各候选的信念" bij ​ 和"整体不确定性" ui当证据充足时,信念集中且不确定性低;当证据不足或样本失配时,信念弱且不确定性高。

共识建模

前文的不确定性 uiu_iui​ 确实有助于识别噪声对应关系,但作者发现:低不确定性并不一定意味着当前实体对齐是对的 。也就是说,模型可能"很自信",但"自信地错了"。因此,单靠uncertainty 不够,还需要一个额外指标,去判断模型的高置信到底是不是落在真实标注对应上。这个额外指标就是 consensus

只要总证据很多,Qi 就大,ui 就小。可这些证据可能集中在正确候选上,也可能集中在错误候选上。uncertainty 本身区分不了这两种情况。

对于给定的实体 xi,共识定义为:

++其中 si = [si1, si2, · · · , siN] 表示相似度向量,即实体 xi 和所有候选实体之间的相似度向量。++ max(0, ·) 确保共识是非负的。++yi​one-hot向量,只有一个位置是 1,其余位置全是 0 的向量,用来表示"多个类别里只有一个是真的"。++

可是在测试阶段 ,不知道真实匹配对象是谁。既然不知道 yi ,那你就不能直接算这个 ci​

为了解决"测试时没有真实标签"这个问题,作者提出:不用真实标注 yi,而是通过一种基于 marginal contribution(边际贡献)的贪心策略,去估计哪个候选实体才是正确对应。

对于给定的实体 xi ,其第 m个属性的边际贡献定义为

这里的 Δ 表示:把第 m 个属性加入当前属性子集 π 后,整体价值提高了多少

表示排除第 m 个属性的属性子集 ππ 是可用属性的完整集合。

接下来最关键的是 value function ,也就是 v(⋅) 到底怎么定义。

  • sij 表示第 j 个属性产生的相似度信息;
  • 对属性子集 π 里的各属性做平均,得到一个基于这些属性的综合相似度;
  • 再在候选实体里选出最相似的那个候选,把这个最大相似度当成 v(π)。

第 m 个属性是否提升了实体 xi 的最佳匹配质量。

如果 Δ>0,说明加了这个属性以后,最优匹配更清晰了、质量更高了;如果 Δ<0,说明这个属性让匹配更模糊了,可能引入了错误干扰。

文中给出的贪心策略是:

其中 π0是初始属性子集,满足

M 表示总属性数,π0​ 是一个初始子集。作者先从一个"过半"的属性子集开始,然后考察剩余属性:对每个尚未选入的属性 m;如果把它加进当前子集后,value function 提升,那就把它加入最终子集 π∗。这就是一个典型的贪心筛选:谁有正增益,就留下;谁没增益,就丢掉。

Pair Division

作者考虑的是那些满足 yij=1inter-graph pairs,也就是"当前标注为匹配"的跨图实体对。换句话说,这些样本在训练数据里都被当作正样本,但作者怀疑其中有些其实带噪声,所以不能一视同仁。因此,他们把这些正样本再细分成三类。

第一类是 noisy portion with high uncertainty,记作

这类样本的特点是 不确定性高 。意思是:模型对这个实体xi 的匹配缺乏足够证据,总体判断不稳定。前面讲过,ui 高通常意味着证据不足,因此这类样本被认为是"不可靠的",很可能是噪声样本,或者至少是很难判断的样本。

第二类是noisy portion with low consensus,记作

这类样本的特点是:虽然不确定性不高,也就是模型看起来"挺有把握",但 consensus 低,说明模型当前的高置信并没有落在真实标注对应上。这类样本很危险,因为它们属于"自信但可能错"。所以作者也把它们当作 noisy portion。

第三类是clean portion,记作

这类样本既满足低不确定性,又满足高 consensus。也就是说:模型有足够证据;而且这些证据与标注对应是相一致的。所以这一类才被看作相对干净、可信的样本。

接下来是阈值 βu​βc 怎么取。作者想用这两个阈值,把样本分成高 uncertainty、低 consensus、clean 三类。作者不是手工固定,而是做了self-adaptive 设定:

它表示:uncertainty 的阈值取两个值里较小的那个:

  • 一个是当前正确样本中最大的 uncertainty,uTP;
  • 一个是人为设置的上界 1−β。
  • 如果某个样本的 uncertainty 比这个阈值还大,就说明它比"正常预测正确样本里最差的情况"还要更不确定,那它就比较可疑,应该被划进高 uncertainty 集合里。

它表示:consensus 的阈值取两个值里较大的那个:

  • 一个是人为设定的下界 β;
  • 一个是当前正确样本中最小的 consensus,cTP。
  • 如果一个样本的 consensus 连"正确样本里的最低水平"都达不到,或者甚至低于一个基本下界 β,那它就不能被看作可靠。

文中定义:

是在所有 true positive 样本里,取 最大的 uncertainty 。它表示:连那些已经预测对的样本里,最不确定的那个样本,不确定性有多大。

是在所有 true positive 样本里,取 最小的 consensus 。它表示:连那些已经预测对的样本里,共识最低的那个样本,共识值有多小。

并且表示 true positive pairs 的集合,也就是那些"当前模型预测的最佳候选,恰好等于真实标注"的样本。

稳健的图间差异消除(discrepancy elimination

作者后面想做一种"跨图表示对齐/差异消除"的训练,让匹配实体在表示空间里更一致、差异更小。但如果某个匹配对本来就很可疑,你再强行把它们往一起拉,可能会把表示空间学坏。

SU​ 里的样本因为 uncertainty 很高 ,说明模型对这些样本的判断本身就缺乏足够证据,所以作者认为它们是不可靠的 ,直接不让它们参与后续的 discrepancy elimination

SI ​里的样本表面上并不缺证据,模型看起来甚至还挺自信,但 consensus 低,说明模型当前支持的并不是标注对应关系,而可能是别的候选实体。所以它们也不能被简单看作 reliable pairs。

正因为 SU​、SI​、SC 三类样本的可靠性完全不同,所以作者提出一个 Dually Robust Learning, DRL ,针对这三类样本采用不同的处理策略,从而提高模型对跨图噪声对应关系的鲁棒性。

然后作者给出总体目标函数:

表示总损失由两部分组成。

第一部分是LDR​ 也就是 dually robust loss 。这是主损失,负责真正实现对不同样本类型的鲁棒学习。

第二部分是 LReg 也就是 regularization loss,正则项。它通常用来约束模型不要学得过于极端、过于自信,或者保持 evidential parameters 的合理性。

  • 对于实体 xi ,模型不是直接输出一个固定概率向量,而是输出一个 Dirichlet 分布 D(pi∣αi) 。这里 pi 是一个"随机的类别概率向量",也就是:它表示" xi 与每个候选实体匹配的概率分布"。
  • αi是这个 Dirichlet 分布的参数,控制它的均值和不确定性。
  • 是欧氏距离平方,也就是均方误差型目标。它衡量的是:从 Dirichlet 分布中取出来的一个概率向量 pi ,与目标y^i相差多远。
  • 它约束的是 Dirichlet 分布的均值 要接近目标y^i

其中 y^i 就是 refined label ,也就是"修正后的标签"。ci​ 是 consensus,表示当前标注对应得到的支持程度。如果样本属于低共识集合SI ,作者就不再直接用原始 one-hot 标签 yi 了,而是把它和模型当前的相似度分布做加权融合。

可以这样理解这个设计:

SC​ 样本,作者说"这类样本大概率是干净的,直接信标签"。

SI​样本,作者说"这类样本标签可能有问题,因此不要全信标签,要让标签和当前模型判断折中一下"。

SU样本,作者说"这类样本太不确定,先别拿它训练"。

式 (11) 主要是在鼓励"可靠对应关系"产生更高证据,让预测分布靠近 refined label (式子12)。但它并没有显式保证"那些不相关的候选实体"一定只能产生很少的证据。

于是有式 (13):

关键就在于

其中 ⊙ 表示逐元素乘法。

比如"极端情况"

当 y^ij=1 时:目标维直接被置为 1。

当 y^ij=0 时: 非目标维完全保留。

这里的 是全 1 向量,因此就是一个均匀 Dirichlet 分布。它对应的语义是:没有额外证据支持任何类别。所以它就是一个"无信息先验"或"无偏先验"。

它是根据当前样本构造出来的"改造版预测分布",里面保留了非目标类上的证据。

计算它们的KL 散度是指:拿两个概率分布作比较,计算它们有多不一样,并把这个差异当成损失项来优化。这里的意思是让当前这个改造后的 Dirichlet 分布,尽量接近"无额外证据"的均匀先验。

稳健的实体内属性融合

作者前面已经为不同层面的对应关系估计了可靠性,现在就可以把某个属性对应关系的可靠性记为,然后在实体内部做属性融合时,把这个可靠性当成权重。

测试时对应推理

到了推理时,仍然可能遇到一种困难:**有些属性看起来很像,但其实只是表面相似,它们会干扰真正等价实体的识别。**所以作者又加了一个专门在测试时使用的模块,叫做:Test-time correspondence Reasoning (TTR),它的目标不是重新训练模型,而是在推理阶段进一步利用属性级对应关系做一次"推理增强",从而把最终的实体匹配结果修正得更准确。

最终实体匹配分数 = 各个属性相似度分数的加权和。

其中:

作者不满足于直接使用原来的属性相似度 sim ​,因为那可能只是浅层匹配结果。于是他们引入了一个 MLLM ,并让它对一组候选属性对应关系做推理。这里的推理不是简单打分,而是让 MLLM 按照 CoT,也就是 Chain-of-Thought,逐步分析。

下面逐个看符号:

  • 表示实体 xi 的第 m个属性。
  • 表示另一张图中第 j 个候选实体的第 m 个属性。
  • 这里的含义变成:对于实体 xi​ 的第 m 个属性,拿它去和另一张图中各个候选实体的第 m 个属性分别比较,得到一组属性级相似度:
  • 表示第 m 个属性下的一组候选对应集合。意思是:作者不会把所有候选都丢给 MLLM 去推理,而是先根据已有的属性相似度 sim,挑出一批最相近的候选对应关系,构成集合
  • 表示把这些候选对应的 CoT 推理结果拼接或汇总起来。最后再经过Softmax(⋅)得到一个归一化后的属性级相似度分布,再通过式 (15) 和其他属性一起加权融合,形成最终实体相似度

最后得到联合相似度向量

最终预测的候选实体下标

相关推荐
断眉的派大星2 小时前
数据结构——指针
数据结构·算法
Xpower 172 小时前
算法学习笔记 Day 1:迁移学习与域自适应(DANN/CORAL)
笔记·学习·算法
橘颂TA2 小时前
【笔试】算法的暴力美学——牛客 NC242:单词搜索,思路:dfs 算法
算法·深度优先
沐苏瑶3 小时前
Java据结构深度解析:AVL 树与红黑树
数据结构·算法
feifeigo1233 小时前
MATLAB中对转子建立有限元模型并进行动力学计算
算法
网域小星球3 小时前
C 语言从 0 入门(十九)|共用体与枚举:自定义类型进阶
c语言·开发语言·算法·枚举·自定义类型·共用体
favour_you___3 小时前
算法练习2026/4/13
算法·深度优先
吃着火锅x唱着歌3 小时前
LeetCode 1963 使字符串平衡的最小交换次数
算法·leetcode·职场和发展
无敌昊哥战神3 小时前
【算法与数据结构】深入浅出回溯算法:理论基础与核心模板(C/C++与Python三语解析)
c语言·数据结构·c++·笔记·python·算法