【文献阅读】TAM: Topology-Aware Margin Loss for Class-Imbalanced Node Classification

Abstract

在类别不平衡的图数据中学习无偏的节点表示是一项具有挑战性的任务，因为相邻节点之间存在相互作用。
现有研究的共同点在于，它们根据少数类节点的总体数量"作为一个整体"进行补偿（忽略了图中的节点连接），这不可避免地增加了主要节点的误报案例。
本文假设这些误报案例的增加与每个节点周围的标签分布有很大关系，并通过实验确认了这一点。基于此，本文提出了拓扑感知边缘（TAM）来反映学习目标中的局部拓扑。通过将每个节点的连接模式与类别平均的对应部分进行比较，并根据此自适应地调整边缘。

Introduction

由于自然图本质上可能存在类别不平衡，GNNs容易对主要类别产生偏见。从这些图中学习而不处理类别不平衡问题会导致次要类别的低准确率。尽管简单的解决方案是创建类别平衡的图，但以平衡方式收集数据并不总是可行的。

先前的研究基于数量补偿次要类别时，某些节点可能显著降低其他类别的表现。考虑到GNNs消息传递算法的固有特性，本文假设在消息传递的聚合过程中，整个表示学习过程可能会被加权的次要节点误导，并且这种影响更归因于与其他（主要）类别具有高连接率的节点。

本文观察到补偿具有高连接率到主要类别的次要节点显著增加了主要节点的误报率。基于这一观察，作者确认现有的不平衡处理算法在权重次要类别时未能反映这一局部拓扑，因此表现不佳。

拓扑感知边缘（TAM），这是一种基于节点的logit调整方法，考虑了类别对的连接和邻居分布统计的局部拓扑。

关键如下：如果一个（次要）节点在考虑其局部拓扑时大概率可能与特定（主要）类别混淆，则应该减少这些（主要）类别的边缘，以便GNNs能够以良好校准的方式进行训练（即，当一些次要节点异常地有许多主要邻居时，我们减少其权重）。为此，首先设计了异常连接感知边缘（ACM），如果节点对目标类别有相对高的邻居密度，则减少该节点的目标类别边缘。同时，引入了异常分布感知边缘（ADM），根据目标类别的平均邻居统计计算混淆程度，并进一步调整目标类别的边缘。

Contribution：

假设并确认,由于补偿次要节点而产生的误报不会均匀分布在图上,而是受到每个节点周围邻居标签分布的高度影响。证明了在与主要节点有较高连接的次要节点周围出现了显著高的误报率。

Preliminary

这两个概念的计算是基于所有节点的邻居标签分布已知的假设。

Node Classification with Graph Neural Networks

关于GCN的具体介绍与代码解读详见：
【代码解读】torch_geometric.nn.GCNConv

Margin-based Class-Imbalance Handling

基于边缘的方法通过在训练阶段增加次要类别到主要类别的边缘或减少主要类别到次要类别的边缘来减轻对主要类别的偏见,并表现出比其他损失修改算法显着优越的性能。
带有平衡Softmax的交叉熵（CE） ：
N k N_k Nk是第k类的总数。

在多类Softmax 回归中,平衡 Softmax 最小化了泛化界限。由于基于边缘的方法可以通过考虑两类之间的相对数量比例来调整logits,并且在视觉领域中有效,本文在算法中采用了基于边缘的方法。

Analysis of Anomalous Connectivity

主要研究假设：在基于数量的补偿过程中，与连接模式偏离的小类节点会引起过多的误报。为了实证验证的假设，本节调查了小类节点上误报的拓扑位置。

在图 1（a）和（b）中，无论每个基线的补偿策略如何，小类节点上的误报都集中在与其他类别具有更高连接度的小类节点周围（与类别平均水平相比）。有趣的是，误报的适用性在同质和异质连接图中一致表现出来。

Proposed Method

TAM基于单个节点的局部拓扑结构来确定不平衡补偿的强度。在第3节中，研究了强化与其他类连接更多的小节点而不是类平均水平会导致小类的假阳性。受此观察启发，本文识别拓扑上不可能的节点，并自适应调整这些节点的边距。

TAM 的两个核心组成部分：首先，如果目标节点在邻居标签分布（NLD）中的类别占比大于类别平均连接度，则异常连接边际（ACM）会减少目标节点（其中一个邻居节点）的类别边际（第 4.1 节）。然后，异常分布感知边际（ADM）根据使用目标类别平均 NLD 和自身类别平均 NLD 计算的相对距离调整边际（第 4.2 节）。

Anomalous Connectivity-Aware Margin

ACM的目的是通过校准 C y v C_{y_v} Cyv与 D v D_v Dv的偏差来修改每个类别的边际。

第一步：对于给定节点 v v v，比较 D y v , y v D_{{y_v},{y_v}} Dyv,yv与类别 y y y的平均同质性比率 C y v , y v C_{{y_v},{y_v}} Cyv,yv，如果 C y v , y v / D v , y v C_{{y_v},{y_v}}/D_{v,{y_v}} Cyv,yv/Dv,yv较高，我们会减少所有类别的边际。这里的直觉是：由于不遵循类别同质性趋势的节点在不平衡处理过程中会有风险，我们在训练阶段使这些节点的学习信号变弱。
第二步：为了进一步控制每个类别 t 的边际，计算与类别 t t t的连接比率超过类别平均水平的程度： D v , t / C y v , t D_{v,t}/C_{{y_v},t} Dv,t/Cyv,t，值越高表明节点 v v v 有很大机会与类别 t t t 混淆。因此，减少类别 t t t 的边际，使 GNN 能在一个良好校准的方式下进行训练。

Anomalous Distribution-Aware Margin

异常分布感知边际（ADM），它根据目标类别相对于自身类别（给定节点的类别）在 NLD 空间中的相对接近程度来补充性地调整目标类别的边际。由于两类在 NLD 空间越接近，区分它们就越困难，因此设计了 ADM 以对目标类别与自身类别之间的距离敏感。

Class-wise Temperature for Unlabeled Nodes

目前为止，我们假设在计算 NLD 𝐷 和类别连接矩阵 𝐶 时，标记节点邻居的标签信息是可访问的。然而，在大多数节点分类场景中，除了少量的标记节点集合外，标签信息是未知的。因此，为了在获得𝐷和𝐶时估计所需的类别信息，我们利用正在训练的模型的预测结果。

为了改进模型预测，引入了类别温度策略。