图结构感知的Transformer：一种新的图表示学习方法

人工智能咨询培训老师叶梓转载标明出处

尽管图神经网络（GNNs）在处理图数据方面取得了显著成就，但它们在表达能力和捕获长距离依赖方面存在局限性。为了突破这些局限，研究者们开始探索将Transformer架构应用于图表示学习。在此基础上，瑞士苏黎世联邦理工学院的研究团队提出了一种创新的方法------Structure-Aware Transformer（SAT），旨在通过在自注意力机制中引入基于子图的表示，增强模型对图结构的感知能力，从而在计算注意力时能够显式地考虑节点间的图结构信息。

SAT

在传统的Transformer模型中，自注意力机制仅依赖于节点特征，忽略了节点在图中的结构位置和邻域信息。研究者提出的结构感知自注意力机制，通过引入子图表示来增强模型对图结构的感知能力。

图 2 展示了一个使用k-subgraph GNN提取器作为其结构提取器的SAT层的概述。结构提取器生成结构感知的节点表示，这些表示被用来计算Transformer层中的查询（Q）和键（K）矩阵。具体为k-subgraph GNN提取器首先提取以每个节点为中心的k-hop子图（这里，k=1），然后使用GNN在每个子图上生成节点表示，利用完整的子图信息。

结构感知自注意力函数不仅考虑了节点特征的相似性，还考虑了子图之间的结构相似性。这使得它能够生成比原始自注意力更富有表达性的节点表示。

公式 (5) 定义了结构感知注意力函数 SA-attn(v)，其中 SG(v) 表示以节点 v 为中心的子图，与节点特征 X 相关联，κgraph 是可以比较一对子图的核函数。这种自注意力不再是节点排列不变的，而仅在节点的特征和子图相同时才不变，这是理想的属性。

公式 (6) 提供了 κgraph 的一种形式，它包含了一大类富有表达性且计算上可行的模型。

在定义了结构感知自注意力函数之后，Structure-Aware Transformer的其他组件遵循Transformer架构。如图 2 所示，自注意力函数后面是一个跳跃连接（skip-connection）、一个前馈网络（FFN）以及FFN前后的两个归一化层。另外跳跃连接中还包括了度因子，这有助于减少高度连接的图组件的压倒性影响。

公式 (9) 展示了如何结合自注意力和节点的度来更新节点表示。

对于图属性预测，有多种方法可以将节点级表示聚合成图表示，例如通过取平均或求和。或者，可以使用虚拟 [CLS] 节点的嵌入，该节点附加到输入图上，与其他节点没有连接。

尽管结构感知自注意力已经能够感知结构信息，但大多数绝对编码技术仅是位置感知的，因此可以提供补充信息。实际上结合使用可以进一步提高性能。研究者选择使用随机游走位置编码（RWPE），尽管也可以使用其他任何绝对位置表示，包括可学习的表示。

定理 1 表明，如果两个节点的子图表示相似，那么它们在结构感知注意力之后的表示也会相似。这表明结构感知编码可以生成相似的节点级表示，即使在不同图中，只要它们具有相似的局部结构。

由于结构感知注意力的设计独特，依赖于子图结构提取器，因此可以研究输出表示的表达性。定理 2 表明，结构感知注意力层的节点表示至少与其子图表示一样具有表达性。

通过这些创新，Structure-Aware Transformer在图表示学习领域提供了一种新的视角，有望推动相关技术的发展。

想要掌握如何将大模型的力量发挥到极致吗？叶老师带您深入了解 Llama Factory ------ 一款革命性的大模型微调工具。实战专家1小时讲解让您轻松上手，学习如何使用 Llama Factory 微调模型。

评论留言"参加"或扫描微信备注"参加"，即可参加线上直播分享，叶老师亲自指导，互动沟通，全面掌握Llama Factory。关注享粉丝福利，限时免费录播讲解。

LLaMA Factory 支持多种预训练模型和微调算法。它提供灵活的运算精度和优化算法选择，以及丰富的实验监控工具。开源特性和社区支持使其易于使用，适合各类用户快速提升模型性能。

实验

实验中，SAT模型与多种GNNs进行了比较，包括GCN、GraphSAGE、GAT、GIN、PNA、DeeperGCN和ExpC等。同时，也与最近提出的多种基于图的Transformer模型进行了比较，包括原始的Transformer与RWPE、Graph Transformer、SAN、Graphormer和GraphTrans等。

在表1和表2中，SAT模型与其他GNNs和Transformers的性能进行了比较。结果显示，SAT在所有数据集上一致地超越了现有的最先进方法，证明了其结合GNNs和Transformers优势的能力。特别是在CODE2数据集上，尽管参数数量相对较少且仅进行了最小的超参数调整，SAT模型仍然大幅度超越了其他SOTA方法。

表3总结了SAT相对于其使用的稀疏GNN的性能，这些GNN用于提取子图表示。在不同的GNN选择中，两种变体的SAT（k-subtree和k-subgraph SAT）始终显著提高了基础GNN的性能，这表明结构感知方法的表达能力得到了显著提升。

超参数k的选择对SAT模型的性能有显著影响。图 3a 展示了在ZINC数据集上，使用PNA和不同k值的k-subtree和k-subgraph提取器时，测试MAE如何变化。结果表明，包含结构信息可以显著提高性能，k=3时性能最佳。与仅使用绝对位置编码的Transformer相比，结构感知注意力在性能上取得了显著提升，如图 3b所示。

除了性能提升外，SAT模型还提供了比仅具有绝对位置编码的经典Transformer更好的模型解释性。通过在Mutagenicity数据集上训练SAT模型和具有CLS读出的Transformer，并可视化[CLS]节点与其他节点之间的注意力分数，如图 4所示。SAT模型能够识别出更多与突变性相关的化学基团（例如NO2和NH2），并且注意力分数更稀疏、更具信息性。

这些实验结果不仅证明了SAT模型在图表示学习任务中的有效性，还展示了其在模型解释性方面的优势，为未来的研究和应用提供了有价值的参考。

https://arxiv.org/pdf/2202.03036v3

GitHub - BorgwardtLab/SAT: Official Pytorch code for Structure-Aware Transformer.