定义
单个图内部。 实体-属性对是
表示第 i 个实体,
表示这个实体的第 m 个属性,
是一个二值标记,等于1表示它们之间存在有效的"实体内部对应关系";
跨图的实体对齐。 实体-实体对为
xi 来自第一个图,x~j 来自第二个图,波浪号 ~ 只是用来区分"另一个图里的对象"。其中 yij=1
表示 xi 和x~j 指的是同一个现实世界中的对象;
方法
不确定性建模
对于给定实体 xi ,对每个候选实体j ,模型会产生一个证据值eij 。这个eij 表示:对于" xi 应该和第j 个候选实体匹配"这件事,模型目前积累了多少支持证据。通常有 eij≥0,证据越大,说明模型越倾向于支持这个候选。

接着,作者定义
,防止eij=0导致Qi=0
然后定义"总置信强度"
。可以把它理解为:模型对这个实体 xi 到底掌握了多少整体信息。Qi 越大,说明模型积累的总证据越多;Qi 越小,说明模型掌握的信息越少。
下面再看两个核心量。
第一个是belief mass:

它表示:在所有总强度 Qi 中,有多少比例被分配给" xi 匹配第 j 个候选实体"这个判断。注意这里分子用的是 eij ,不是αij 。这说明belief mass 只统计"额外证据"本身,不把那个人为加进去的1 算作真正的支持信息。
第二个是 uncertainty:

N~ 可以理解为"候选匹配目标个数"。这个式子说明不确定性 与 Qi 成反比。总强度 Qi 越大,不确定性 ui 越小;总强度越小,不确定性越大。
现在来验证为什么有

因为
,
所以
总结:
对于实体xi ,作者不是直接输出"它和谁匹配"的概率,而是先通过证据eij 构造 Dirichlet 分布,再把判断分解为"对各候选的信念" bij 和"整体不确定性" ui 。当证据充足时,信念集中且不确定性低;当证据不足或样本失配时,信念弱且不确定性高。
共识建模
前文的不确定性 uiu_iui 确实有助于识别噪声对应关系,但作者发现:低不确定性并不一定意味着当前实体对齐是对的 。也就是说,模型可能"很自信",但"自信地错了"。因此,单靠uncertainty 不够,还需要一个额外指标,去判断模型的高置信到底是不是落在真实标注对应上。这个额外指标就是 consensus。
只要总证据很多,Qi 就大,ui 就小。可这些证据可能集中在正确候选上,也可能集中在错误候选上。uncertainty 本身区分不了这两种情况。
对于给定的实体 xi,共识定义为:

++其中 si = [si1, si2, · · · , siN] 表示相似度向量,即实体 xi 和所有候选实体之间的相似度向量。++ max(0, ·) 确保共识是非负的。++yi 是 one-hot向量,只有一个位置是 1,其余位置全是 0 的向量,用来表示"多个类别里只有一个是真的"。++
可是在测试阶段 ,不知道真实匹配对象是谁。既然不知道 yi ,那你就不能直接算这个 ci。
为了解决"测试时没有真实标签"这个问题,作者提出:不用真实标注 yi,而是通过一种基于 marginal contribution(边际贡献)的贪心策略,去估计哪个候选实体才是正确对应。
对于给定的实体 xi ,其第 m个属性的边际贡献定义为

这里的 Δ 表示:把第 m 个属性加入当前属性子集 π 后,整体价值提高了多少。
表示排除第 m 个属性的属性子集 π ,π 是可用属性的完整集合。
接下来最关键的是 value function ,也就是 v(⋅) 到底怎么定义。

- sij 表示第 j 个属性产生的相似度信息;
- 对属性子集 π 里的各属性做平均,得到一个基于这些属性的综合相似度;
- 再在候选实体里选出最相似的那个候选,把这个最大相似度当成 v(π)。
第 m 个属性是否提升了实体 xi 的最佳匹配质量。
如果 Δ>0,说明加了这个属性以后,最优匹配更清晰了、质量更高了;如果 Δ<0,说明这个属性让匹配更模糊了,可能引入了错误干扰。
文中给出的贪心策略是:

其中 π0是初始属性子集,满足

M 表示总属性数,π0 是一个初始子集。作者先从一个"过半"的属性子集开始,然后考察剩余属性:对每个尚未选入的属性 m;如果把它加进当前子集后,value function 提升,那就把它加入最终子集 π∗。这就是一个典型的贪心筛选:谁有正增益,就留下;谁没增益,就丢掉。
Pair Division
作者考虑的是那些满足 yij=1 的inter-graph pairs,也就是"当前标注为匹配"的跨图实体对。换句话说,这些样本在训练数据里都被当作正样本,但作者怀疑其中有些其实带噪声,所以不能一视同仁。因此,他们把这些正样本再细分成三类。
第一类是 noisy portion with high uncertainty,记作

这类样本的特点是 不确定性高 。意思是:模型对这个实体xi 的匹配缺乏足够证据,总体判断不稳定。前面讲过,ui 高通常意味着证据不足,因此这类样本被认为是"不可靠的",很可能是噪声样本,或者至少是很难判断的样本。
第二类是noisy portion with low consensus,记作

这类样本的特点是:虽然不确定性不高,也就是模型看起来"挺有把握",但 consensus 低,说明模型当前的高置信并没有落在真实标注对应上。这类样本很危险,因为它们属于"自信但可能错"。所以作者也把它们当作 noisy portion。
第三类是clean portion,记作

这类样本既满足低不确定性,又满足高 consensus。也就是说:模型有足够证据;而且这些证据与标注对应是相一致的。所以这一类才被看作相对干净、可信的样本。
接下来是阈值 βu 和 βc 怎么取。作者想用这两个阈值,把样本分成高 uncertainty、低 consensus、clean 三类。作者不是手工固定,而是做了self-adaptive 设定:

它表示:uncertainty 的阈值取两个值里较小的那个:
- 一个是当前正确样本中最大的 uncertainty,uTP;
- 一个是人为设置的上界 1−β。
- 如果某个样本的 uncertainty 比这个阈值还大,就说明它比"正常预测正确样本里最差的情况"还要更不确定,那它就比较可疑,应该被划进高 uncertainty 集合里。

它表示:consensus 的阈值取两个值里较大的那个:
- 一个是人为设定的下界 β;
- 一个是当前正确样本中最小的 consensus,cTP。
- 如果一个样本的 consensus 连"正确样本里的最低水平"都达不到,或者甚至低于一个基本下界 β,那它就不能被看作可靠。
文中定义:

是在所有 true positive 样本里,取 最大的 uncertainty 。它表示:连那些已经预测对的样本里,最不确定的那个样本,不确定性有多大。
是在所有 true positive 样本里,取 最小的 consensus 。它表示:连那些已经预测对的样本里,共识最低的那个样本,共识值有多小。
并且
表示 true positive pairs 的集合,也就是那些"当前模型预测的最佳候选,恰好等于真实标注"的样本。
稳健的图间差异消除(discrepancy elimination)
作者后面想做一种"跨图表示对齐/差异消除"的训练,让匹配实体在表示空间里更一致、差异更小。但如果某个匹配对本来就很可疑,你再强行把它们往一起拉,可能会把表示空间学坏。
SU 里的样本因为 uncertainty 很高 ,说明模型对这些样本的判断本身就缺乏足够证据,所以作者认为它们是不可靠的 ,直接不让它们参与后续的 discrepancy elimination。
SI 里的样本表面上并不缺证据,模型看起来甚至还挺自信,但 consensus 低,说明模型当前支持的并不是标注对应关系,而可能是别的候选实体。所以它们也不能被简单看作 reliable pairs。
正因为 SU、SI、SC 三类样本的可靠性完全不同,所以作者提出一个 Dually Robust Learning, DRL ,针对这三类样本采用不同的处理策略,从而提高模型对跨图噪声对应关系的鲁棒性。
然后作者给出总体目标函数:

表示总损失由两部分组成。
第一部分是LDR 也就是 dually robust loss 。这是主损失,负责真正实现对不同样本类型的鲁棒学习。
第二部分是 LReg 也就是 regularization loss,正则项。它通常用来约束模型不要学得过于极端、过于自信,或者保持 evidential parameters 的合理性。


- 对于实体 xi ,模型不是直接输出一个固定概率向量,而是输出一个 Dirichlet 分布 D(pi∣αi) 。这里 pi 是一个"随机的类别概率向量",也就是:
它表示" xi 与每个候选实体匹配的概率分布"。 - αi是这个 Dirichlet 分布的参数,控制它的均值和不确定性。
是欧氏距离平方,也就是均方误差型目标。它衡量的是:从 Dirichlet 分布中取出来的一个概率向量 pi ,与目标y^i相差多远。- 它约束的是 Dirichlet 分布的均值 要接近目标y^i。

其中 y^i 就是 refined label ,也就是"修正后的标签"。ci 是 consensus,表示当前标注对应得到的支持程度。如果样本属于低共识集合SI ,作者就不再直接用原始 one-hot 标签 yi 了,而是把它和模型当前的相似度分布做加权融合。
可以这样理解这个设计:
对 SC 样本,作者说"这类样本大概率是干净的,直接信标签"。
对SI样本,作者说"这类样本标签可能有问题,因此不要全信标签,要让标签和当前模型判断折中一下"。
对 SU样本,作者说"这类样本太不确定,先别拿它训练"。
式 (11) 主要是在鼓励"可靠对应关系"产生更高证据,让预测分布靠近 refined label (式子12)。但它并没有显式保证"那些不相关的候选实体"一定只能产生很少的证据。
于是有式 (13):

关键就在于

其中 ⊙ 表示逐元素乘法。
比如"极端情况"
当 y^ij=1 时:
目标维直接被置为 1。
当 y^ij=0 时:
非目标维完全保留。
这里的
是全 1 向量,因此
就是一个均匀 Dirichlet 分布。它对应的语义是:没有额外证据支持任何类别。所以它就是一个"无信息先验"或"无偏先验"。
它是根据当前样本构造出来的"改造版预测分布",里面保留了非目标类上的证据。
计算它们的KL 散度是指:拿两个概率分布作比较,计算它们有多不一样,并把这个差异当成损失项来优化。这里的意思是让当前这个改造后的 Dirichlet 分布,尽量接近"无额外证据"的均匀先验。
稳健的实体内属性融合
作者前面已经为不同层面的对应关系估计了可靠性,现在就可以把某个属性对应关系的可靠性记为
,然后在实体内部做属性融合时,把这个可靠性当成权重。

测试时对应推理
到了推理时,仍然可能遇到一种困难:**有些属性看起来很像,但其实只是表面相似,它们会干扰真正等价实体的识别。**所以作者又加了一个专门在测试时使用的模块,叫做:Test-time correspondence Reasoning (TTR),它的目标不是重新训练模型,而是在推理阶段进一步利用属性级对应关系做一次"推理增强",从而把最终的实体匹配结果修正得更准确。

最终实体匹配分数 = 各个属性相似度分数的加权和。
其中:

作者不满足于直接使用原来的属性相似度 sim ,因为那可能只是浅层匹配结果。于是他们引入了一个 MLLM ,并让它对一组候选属性对应关系做推理。这里的推理不是简单打分,而是让 MLLM 按照 CoT,也就是 Chain-of-Thought,逐步分析。
下面逐个看符号:
表示实体 xi 的第 m个属性。
表示另一张图中第 j 个候选实体的第 m 个属性。- 这里的
含义变成:对于实体 xi 的第 m 个属性,拿它去和另一张图中各个候选实体的第 m 个属性分别比较,得到一组属性级相似度:
表示第 m 个属性下的一组候选对应集合。意思是:作者不会把所有候选都丢给 MLLM 去推理,而是先根据已有的属性相似度 sim,挑出一批最相近的候选对应关系,构成集合
表示把这些候选对应的 CoT 推理结果拼接或汇总起来。最后再经过Softmax(⋅)得到一个归一化后的属性级相似度分布
,再通过式 (15) 和其他属性一起加权融合,形成最终实体相似度 
最后得到联合相似度向量
最终预测的候选实体下标