目录
一、摘要
图注意力网络(GAT)
提出了一种新型神经网络架构------图注意力网络(GAT),该架构基于图结构数据运行,通过掩码自注意力层解决传统图卷积方法及其近似算法的局限性。通过堆叠多层注意力机制,模型使节点能够自适应地关注邻居节点的特征,并隐式地为不同邻居节点分配差异化权重。这一设计无需依赖昂贵的矩阵运算(如求逆),也无需预先了解完整的图结构信息。
技术优势
该方法同步解决了基于谱方法的图神经网络面临的多个关键问题,使模型能够同时适用于归纳式学习和直推式学习任务。在四个经典基准数据集(Cora、Citeseer、Pubmed引文网络及蛋白质相互作用数据集)上的实验表明,GAT模型在直推式和归纳式场景下均达到或超越了当前最优水平,其中蛋白质相互作用数据集特别包含训练阶段未见的测试图结构。
核心创新
采用多头自注意力机制替代传统图卷积操作,允许节点动态学习邻居的重要性权重。这种机制突破了传统方法需要固定图结构的限制,且计算复杂度显著低于基于谱分解的方法。模型在训练过程中完全端到端地学习节点关系,无需预先定义图拉普拉斯矩阵。
二、介绍
卷积神经网络(CNN)已成功应用于解决图像分类(He等人,2016)、语义分割(Jégou等人,2017)或机器翻译(Gehring等人,2016)等问题,这些问题的底层数据表示具有网格状结构。这些架构通过将可学习的局部滤波器应用于所有输入位置,高效地重用了参数。
然而,许多有趣的任务涉及的数据无法以网格状结构表示,而是存在于不规则域中。例如3D网格、社交网络、电信网络、生物网络或大脑连接组。此类数据通常可以表示为图的形式。
文献中已有多种尝试将神经网络扩展至处理任意结构的图。早期工作使用递归神经网络处理有向无环图表示的数据(Frasconi等人,1998;Sperduti & Starita,1997)。图神经网络(GNN)由Gori等人(2005)和Scarselli等人(2009)提出,作为递归神经网络的泛化,可直接处理更广泛的图类型(如循环图、有向图和无向图)。GNN包含一个迭代过程,传播节点状态直至达到平衡;随后通过神经网络基于节点状态生成输出。Li等人(2016)采用并改进了这一思想,提出在传播步骤中使用门控循环单元(Cho等人,2014)。
尽管如此,将卷积推广到图领域的兴趣日益增长。该方向的进展通常分为谱方法和非谱方法两类。
一方面,谱方法通过图的谱表示开展工作,并已成功应用于节点分类任务。Bruna等人(2014)在傅里叶域定义卷积运算,通过计算图拉普拉斯矩阵的特征分解实现,但该方法存在计算复杂度高且滤波器空间局部性不足的问题。后续研究对此进行了改进:Henaff等人(2015)提出用平滑系数参数化谱滤波器以增强空间局部性;Defferrard等人(2016)采用切比雪夫多项式逼近拉普拉斯矩阵的滤波器,避免显式计算特征向量并获得空间局部化滤波器;Kipf和Welling(2017)进一步简化该方法,将滤波器限制在单阶邻域内操作。但上述谱方法的滤波器均依赖于图拉普拉斯特征基,导致训练所得模型无法直接迁移至不同结构的图。
另一方面,非谱方法(Duvenaud等,2015;Atwood&Towsley,2016;Hamilton等,2017)直接在图上定义卷积运算,作用于空间邻近节点组。这类方法需解决两个关键挑战:设计适用于可变规模邻域且保持CNN权重共享特性的算子。具体实现包括为不同节点度数学习独立权重矩阵(Duvenaud等,2015)、利用转移矩阵幂定义邻域并学习通道-度数组合权重(Atwood&Towsley,2016),或对固定数量节点邻域进行标准化处理(Niepert等,2016)。Monti等人(2016)提出的混合模型CNN(MoNet)为空间方法提供统一框架,而Hamilton等人(2017)的GraphSAGE通过采样固定规模邻域并应用聚合器(如均值运算或RNN处理)实现归纳式节点表征学习,在多类大规模归纳基准测试中表现优异。
注意力机制已成为序列任务的标配方案(Bahdanau等,2015;Gehring等,2016),其核心优势在于能自适应处理变长输入并聚焦关键信息。当用于单序列表征计算时称为自注意力机制,与RNN或卷积结合后在机器阅读(Cheng等,2016)和句子表征学习(Lin等,2017)等任务中效果显著。Vaswani等人(2017)进一步证明,纯自注意力模型即可实现机器翻译任务的state-of-the-art性能。
受此启发,本研究提出基于注意力的图节点分类架构,通过自注意力策略聚合邻域信息计算节点隐藏表征。该架构具有三大特性:(1)节点-邻居对间可并行化计算的高效性;(2)通过赋予邻域任意权重适配不同度数的节点;(3)直接适用于归纳式学习任务(包括未见图的泛化)。在Cora、Citeseer、Pubmed引文网络和蛋白质相互作用数据集上的实验表明,该方法达到或超越当前最优水平,验证了注意力模型处理任意结构图的潜力。
需要注意的是,与Kipf & Welling(2017)和Atwood & Towsley(2016)的研究类似,当前工作也可重构为MoNet(Monti等,2016)的特殊实例。此外,通过在边之间共享神经网络计算的方法,与关系网络(Santoro等,2017)和VAIN(Hoshen,2017)的表述具有相似性------这些工作通过共享机制对物体或智能体间的成对关系进行聚合。
提出的注意力模型可与Duan等(2017)和Denil等(2017)的研究建立关联,后者通过邻域注意力操作计算环境中不同对象间的注意力系数。其他相关方法包括局部线性嵌入(LLE,Roweis & Saul,2000)和记忆网络(Weston等,2014)。LLE为每个数据点选择固定数量的邻近点,并学习每个邻近点的权重系数,以加权求和的方式重构该点;随后的优化步骤提取点的特征嵌入。
记忆网络与当前工作也存在关联:若将节点的邻域视为记忆单元,通过对其值进行注意力计算来生成节点特征,并将新特征存储于同一位置以更新记忆,这一过程与记忆网络的机制具有相似性。
本篇内容分享先到这里,下篇文章会具体分析下gat的架构~
传送门: