学习日记19：GRAPH-BERT

摘要

图神经网络由于过于依赖节点之间的连接信息，会导致停滞问题 （学不进去新东西）和过平滑问题 （所有节点的特征变得差不多）。更主要的是由于图的相互关联特征导致无法进行并行计算，这限制了处理大型图。文章提出了一个叫做GRAPH-BERT的模型，仅仅使用注意力机制，不需要输入完整的大图，只使用局部上下文中采样使用的无连接子图 来进行训练。经过预训练的GRAPH-BERT经过简单的微调就可以迁移到具体任务上。

介绍

随着对于处理图数据的需要，GNN被提出并快速发展，在这个过程中几个严重的问题也逐渐出现，**停滞问题和过平滑问题，对于基于近似图卷积算子的GNN，随着模型体系结构的深入和达到一定的限制，模型将不会对训练数据做出响应，并遭受停滞问题。同时，通过这样的深层模型获得的节点表示往往过于平滑，也变得无法区分。这两个问题都极大地阻碍了GNN在深度图表示学习任务中的应用。更重要的是，内在的互连性质排除了图中的并行化，这对于大型图输入来说变得至关重要，因为内存限制限制了跨节点的批处理。**文章提出的GRAPH-BERT将从输入的大规模图形数据中使用采样节点及其上下文(本文称为无链子图)仅仅使用注意力机制进行训练，避免了上述问题。

由于Graph-Bert并不真正依赖于图的链接，由于不同输入图结构，节点之间的广泛连接和不同的学习任务目标所阻碍的迁移学习也可以在这个模型中使用。

文章的贡献在于：1）提出了一个新的模型Graph-Bert；2）无监督预训练；3）微调和迁移；

方法

如图，GRAPH-BERT包括几个部分：(1)无链子图批处理，(2)节点输入嵌入，(3)基于graph-transformer的编码器，(4)表示融合，(5)功能部件。

无链子图批处理

传统 GNN 直接对完整图训练，因链接依赖导致无法并行且显存压力大。GRAPH-BERT 的解决方案是：**不加载完整图，而是从原图中采样大量 "无链接子图" 作为训练样本。**要实现这个方案，首先要计算亲密度矩阵S，它表示节点之间的相似性，用来决定哪些个节点应该"组队"。

有了亲密度矩阵S后，就可以得到该节点的上下文都有哪些节点，选择方式有两种：1）设置阈值，凡是大于设定阈值的节点都会被作为目标节点的上下文；2）选取亲密度前K的K个节点作为目标节点的上下文。选取完上下文后，加上目标节点本身，去掉所有连接关系得到采样子图（可以一次为全局所有节点都采样或将全局分成几个批次分批次采样）。

节点输入向量嵌入

为了简化表示，将输入子图节点序列化为特定的有序列表（按亲密度大小排序）。要馈送到graph-transformer模型的输入向量嵌入实际上包括四个部分：1)原始特征向量嵌入，(2)Weisfeler-Lehman绝对角色嵌入，(3)基于亲密度的相对位置嵌入，(4)基于跳数的相对距离嵌入。分别捕获自身属性，全局结构角色，节点相对位置，图中实际距离。