学习日记19:GRAPH-BERT

摘要

图神经网络由于过于依赖节点之间的连接信息,会导致停滞问题 (学不进去新东西)和过平滑问题 (所有节点的特征变得差不多)。更主要的是由于图的相互关联特征导致无法进行并行计算,这限制了处理大型图。文章提出了一个叫做GRAPH-BERT的模型,仅仅使用注意力机制,不需要输入完整的大图,只使用局部上下文中采样使用的无连接子图 来进行训练。经过预训练的GRAPH-BERT经过简单的微调就可以迁移到具体任务上

介绍

随着对于处理图数据的需要,GNN被提出并快速发展,在这个过程中几个严重的问题也逐渐出现,**停滞问题和过平滑问题,对于基于近似图卷积算子的GNN,随着模型体系结构的深入和达到一定的限制,模型将不会对训练数据做出响应,并遭受停滞问题。同时,通过这样的深层模型获得的节点表示往往过于平滑,也变得无法区分。这两个问题都极大地阻碍了GNN在深度图表示学习任务中的应用。更重要的是,内在的互连性质排除了图中的并行化,这对于大型图输入来说变得至关重要,因为内存限制限制了跨节点的批处理。**文章提出的GRAPH-BERT将从输入的大规模图形数据中使用采样节点及其上下文(本文称为无链子图)仅仅使用注意力机制进行训练,避免了上述问题。

由于Graph-Bert并不真正依赖于图的链接,由于不同输入图结构,节点之间的广泛连接和不同的学习任务目标所阻碍的迁移学习也可以在这个模型中使用。

文章的贡献在于:1)提出了一个新的模型Graph-Bert;2)无监督预训练;3)微调和迁移;

相关工作

方法

如图,GRAPH-BERT包括几个部分:(1)无链子图批处理,(2)节点输入嵌入,(3)基于graph-transformer的编码器,(4)表示融合,(5)功能部件

无链子图批处理

传统 GNN 直接对完整图训练,因链接依赖导致无法并行且显存压力大。GRAPH-BERT 的解决方案是:**不加载完整图,而是从原图中采样大量 "无链接子图" 作为训练样本。**要实现这个方案,首先要计算亲密度矩阵S,它表示节点之间的相似性,用来决定哪些个节点应该"组队"。

有了亲密度矩阵S后,就可以得到该节点的上下文都有哪些节点,选择方式有两种:1)设置阈值,凡是大于设定阈值的节点都会被作为目标节点的上下文;2)选取亲密度前K的K个节点作为目标节点的上下文。选取完上下文后,加上目标节点本身,去掉所有连接关系得到采样子图(可以一次为全局所有节点都采样或将全局分成几个批次分批次采样)。

节点输入向量嵌入

为了简化表示,将输入子图节点序列化为特定的有序列表(按亲密度大小排序)。要馈送到graph-transformer模型的输入向量嵌入实际上包括四个部分:1)原始特征向量嵌入,(2)Weisfeler-Lehman绝对角色嵌入,(3)基于亲密度的相对位置嵌入,(4)基于跳数的相对距离嵌入。分别捕获自身属性,全局结构角色,节点相对位置,图中实际距离。

得到四个嵌入后,使用求向量和的方式进行聚合,

最终,所有目标节点的嵌入可以得到H,(k+1维)。

基于graph-transformer的编码器

这段没啥,只是H在编码器中进行迭代,从H0->HD,迭代公式为:

最后的聚合就是将不同目标节点迭代得到的信息聚合,功能部件是根据进行任务的不同进行更改的。

GRAPH-BERT学习

**GRAPH-BERT 的学习过程分为 "预训练" 和 "微调与迁移" 两个核心阶段。**预训练阶段无需监督标签,基于原始图数据让模型学习基础的图特征表示;微调阶段则结合具体任务的目标或标签信息,调整模型参数以适配任务需求,同时支持将预训练模型迁移至其他模型或任务中。

预训练过程通过进行两个互补的任务让模型同时捕捉节点属性信息和图结构信息,确保学习到的表示既有节点自身特征,又能反映图的全局与局部结构特性。

预训练结束后就可以根据实际任务的需求将模型迁移,文中以节点分类和图聚类为典型案例,说明不同任务的适配方式。

相关推荐
ar01235 小时前
AR远程协助作用
人工智能·ar
北京青翼科技5 小时前
PCIe接口-高速模拟采集—高性能计算卡-青翼科技高品质军工级数据采集板-打造专业工业核心板
图像处理·人工智能·fpga开发·信号处理·智能硬件
软件聚导航5 小时前
马年、我用AI写了个“打工了马” 小程序
人工智能·ui·微信小程序
陈天伟教授6 小时前
人工智能应用-机器听觉:7. 统计合成法
人工智能·语音识别
笨蛋不要掉眼泪7 小时前
Spring Boot集成LangChain4j:与大模型对话的极速入门
java·人工智能·后端·spring·langchain
昨夜见军贴06167 小时前
IACheck AI审核技术赋能消费认证:为智能宠物喂食器TELEC报告构筑智能合规防线
人工智能·宠物
DisonTangor7 小时前
阿里开源语音识别模型——Qwen3-ASR
人工智能·开源·语音识别
wdfk_prog7 小时前
[Linux]学习笔记系列 -- [drivers][i2c]i2c-dev
linux·笔记·学习
万事ONES7 小时前
ONES 签约北京高级别自动驾驶示范区专设国有运营平台——北京车网
人工智能·机器学习·自动驾驶
qyr67897 小时前
深度解析:3D细胞培养透明化试剂供应链与主要制造商分布
大数据·人工智能·3d·市场分析·市场报告·3d细胞培养·细胞培养