学习日记19:GRAPH-BERT

摘要

图神经网络由于过于依赖节点之间的连接信息,会导致停滞问题 (学不进去新东西)和过平滑问题 (所有节点的特征变得差不多)。更主要的是由于图的相互关联特征导致无法进行并行计算,这限制了处理大型图。文章提出了一个叫做GRAPH-BERT的模型,仅仅使用注意力机制,不需要输入完整的大图,只使用局部上下文中采样使用的无连接子图 来进行训练。经过预训练的GRAPH-BERT经过简单的微调就可以迁移到具体任务上

介绍

随着对于处理图数据的需要,GNN被提出并快速发展,在这个过程中几个严重的问题也逐渐出现,**停滞问题和过平滑问题,对于基于近似图卷积算子的GNN,随着模型体系结构的深入和达到一定的限制,模型将不会对训练数据做出响应,并遭受停滞问题。同时,通过这样的深层模型获得的节点表示往往过于平滑,也变得无法区分。这两个问题都极大地阻碍了GNN在深度图表示学习任务中的应用。更重要的是,内在的互连性质排除了图中的并行化,这对于大型图输入来说变得至关重要,因为内存限制限制了跨节点的批处理。**文章提出的GRAPH-BERT将从输入的大规模图形数据中使用采样节点及其上下文(本文称为无链子图)仅仅使用注意力机制进行训练,避免了上述问题。

由于Graph-Bert并不真正依赖于图的链接,由于不同输入图结构,节点之间的广泛连接和不同的学习任务目标所阻碍的迁移学习也可以在这个模型中使用。

文章的贡献在于:1)提出了一个新的模型Graph-Bert;2)无监督预训练;3)微调和迁移;

相关工作

方法

如图,GRAPH-BERT包括几个部分:(1)无链子图批处理,(2)节点输入嵌入,(3)基于graph-transformer的编码器,(4)表示融合,(5)功能部件

无链子图批处理

传统 GNN 直接对完整图训练,因链接依赖导致无法并行且显存压力大。GRAPH-BERT 的解决方案是:**不加载完整图,而是从原图中采样大量 "无链接子图" 作为训练样本。**要实现这个方案,首先要计算亲密度矩阵S,它表示节点之间的相似性,用来决定哪些个节点应该"组队"。

有了亲密度矩阵S后,就可以得到该节点的上下文都有哪些节点,选择方式有两种:1)设置阈值,凡是大于设定阈值的节点都会被作为目标节点的上下文;2)选取亲密度前K的K个节点作为目标节点的上下文。选取完上下文后,加上目标节点本身,去掉所有连接关系得到采样子图(可以一次为全局所有节点都采样或将全局分成几个批次分批次采样)。

节点输入向量嵌入

为了简化表示,将输入子图节点序列化为特定的有序列表(按亲密度大小排序)。要馈送到graph-transformer模型的输入向量嵌入实际上包括四个部分:1)原始特征向量嵌入,(2)Weisfeler-Lehman绝对角色嵌入,(3)基于亲密度的相对位置嵌入,(4)基于跳数的相对距离嵌入。分别捕获自身属性,全局结构角色,节点相对位置,图中实际距离。

得到四个嵌入后,使用求向量和的方式进行聚合,

最终,所有目标节点的嵌入可以得到H,(k+1维)。

基于graph-transformer的编码器

这段没啥,只是H在编码器中进行迭代,从H0->HD,迭代公式为:

最后的聚合就是将不同目标节点迭代得到的信息聚合,功能部件是根据进行任务的不同进行更改的。

GRAPH-BERT学习

**GRAPH-BERT 的学习过程分为 "预训练" 和 "微调与迁移" 两个核心阶段。**预训练阶段无需监督标签,基于原始图数据让模型学习基础的图特征表示;微调阶段则结合具体任务的目标或标签信息,调整模型参数以适配任务需求,同时支持将预训练模型迁移至其他模型或任务中。

预训练过程通过进行两个互补的任务让模型同时捕捉节点属性信息和图结构信息,确保学习到的表示既有节点自身特征,又能反映图的全局与局部结构特性。

预训练结束后就可以根据实际任务的需求将模型迁移,文中以节点分类和图聚类为典型案例,说明不同任务的适配方式。

相关推荐
aneasystone本尊3 小时前
学习 Dify 的路由系统
人工智能
茯苓gao3 小时前
STM32G4 电流环闭环(二) 霍尔有感运行
笔记·stm32·单片机·嵌入式硬件·学习
一个处女座的程序猿3 小时前
LLMs之AgentDevP:FastGPT的简介、安装和使用方法、案例应用之详细攻略
人工智能
前端小同学3 小时前
逆向还原Claude for Chrome - 学习顶尖公司是如何做浏览器agent的
人工智能·chrome·agent
小欣加油3 小时前
python123 机器学习基础练习2
人工智能·python·深度学习·机器学习
DuHz3 小时前
Stable Video Diffusion:将潜在视频扩散模型扩展到大规模数据集——论文阅读
论文阅读·人工智能·深度学习·神经网络·算法·音视频
学境思源AcademicIdeas4 小时前
我用ChatGPT完成选题的全过程复盘
人工智能·chatgpt
cxr8284 小时前
BMAD方法论:敏捷价值、原则映射与全生命周期技术
人工智能·智能体·ai赋能
荼蘼4 小时前
自然语言处理——情感分析 <上>
人工智能·自然语言处理