学习日记19:GRAPH-BERT

摘要

图神经网络由于过于依赖节点之间的连接信息,会导致停滞问题 (学不进去新东西)和过平滑问题 (所有节点的特征变得差不多)。更主要的是由于图的相互关联特征导致无法进行并行计算,这限制了处理大型图。文章提出了一个叫做GRAPH-BERT的模型,仅仅使用注意力机制,不需要输入完整的大图,只使用局部上下文中采样使用的无连接子图 来进行训练。经过预训练的GRAPH-BERT经过简单的微调就可以迁移到具体任务上

介绍

随着对于处理图数据的需要,GNN被提出并快速发展,在这个过程中几个严重的问题也逐渐出现,**停滞问题和过平滑问题,对于基于近似图卷积算子的GNN,随着模型体系结构的深入和达到一定的限制,模型将不会对训练数据做出响应,并遭受停滞问题。同时,通过这样的深层模型获得的节点表示往往过于平滑,也变得无法区分。这两个问题都极大地阻碍了GNN在深度图表示学习任务中的应用。更重要的是,内在的互连性质排除了图中的并行化,这对于大型图输入来说变得至关重要,因为内存限制限制了跨节点的批处理。**文章提出的GRAPH-BERT将从输入的大规模图形数据中使用采样节点及其上下文(本文称为无链子图)仅仅使用注意力机制进行训练,避免了上述问题。

由于Graph-Bert并不真正依赖于图的链接,由于不同输入图结构,节点之间的广泛连接和不同的学习任务目标所阻碍的迁移学习也可以在这个模型中使用。

文章的贡献在于:1)提出了一个新的模型Graph-Bert;2)无监督预训练;3)微调和迁移;

相关工作

方法

如图,GRAPH-BERT包括几个部分:(1)无链子图批处理,(2)节点输入嵌入,(3)基于graph-transformer的编码器,(4)表示融合,(5)功能部件

无链子图批处理

传统 GNN 直接对完整图训练,因链接依赖导致无法并行且显存压力大。GRAPH-BERT 的解决方案是:**不加载完整图,而是从原图中采样大量 "无链接子图" 作为训练样本。**要实现这个方案,首先要计算亲密度矩阵S,它表示节点之间的相似性,用来决定哪些个节点应该"组队"。

有了亲密度矩阵S后,就可以得到该节点的上下文都有哪些节点,选择方式有两种:1)设置阈值,凡是大于设定阈值的节点都会被作为目标节点的上下文;2)选取亲密度前K的K个节点作为目标节点的上下文。选取完上下文后,加上目标节点本身,去掉所有连接关系得到采样子图(可以一次为全局所有节点都采样或将全局分成几个批次分批次采样)。

节点输入向量嵌入

为了简化表示,将输入子图节点序列化为特定的有序列表(按亲密度大小排序)。要馈送到graph-transformer模型的输入向量嵌入实际上包括四个部分:1)原始特征向量嵌入,(2)Weisfeler-Lehman绝对角色嵌入,(3)基于亲密度的相对位置嵌入,(4)基于跳数的相对距离嵌入。分别捕获自身属性,全局结构角色,节点相对位置,图中实际距离。

得到四个嵌入后,使用求向量和的方式进行聚合,

最终,所有目标节点的嵌入可以得到H,(k+1维)。

基于graph-transformer的编码器

这段没啥,只是H在编码器中进行迭代,从H0->HD,迭代公式为:

最后的聚合就是将不同目标节点迭代得到的信息聚合,功能部件是根据进行任务的不同进行更改的。

GRAPH-BERT学习

**GRAPH-BERT 的学习过程分为 "预训练" 和 "微调与迁移" 两个核心阶段。**预训练阶段无需监督标签,基于原始图数据让模型学习基础的图特征表示;微调阶段则结合具体任务的目标或标签信息,调整模型参数以适配任务需求,同时支持将预训练模型迁移至其他模型或任务中。

预训练过程通过进行两个互补的任务让模型同时捕捉节点属性信息和图结构信息,确保学习到的表示既有节点自身特征,又能反映图的全局与局部结构特性。

预训练结束后就可以根据实际任务的需求将模型迁移,文中以节点分类和图聚类为典型案例,说明不同任务的适配方式。

相关推荐
风象南3 小时前
普通人用AI加持赚到的第一个100块
人工智能·后端
牛奶4 小时前
2026年大模型怎么选?前端人实用对比
前端·人工智能·ai编程
牛奶4 小时前
前端人为什么要学AI?
前端·人工智能·ai编程
罗西的思考6 小时前
AI Agent框架探秘:拆解 OpenHands(10)--- Runtime
人工智能·算法·机器学习
冬奇Lab7 小时前
OpenClaw 源码精读(2):Channel & Routing——一条消息如何找到它的 Agent?
人工智能·开源·源码阅读
冬奇Lab7 小时前
一天一个开源项目(第38篇):Claude Code Telegram - 用 Telegram 远程用 Claude Code,随时随地聊项目
人工智能·开源·资讯
格砸9 小时前
从入门到辞职|从ChatGPT到OpenClaw,跟上智能时代的进化
前端·人工智能·后端
可观测性用观测云9 小时前
可观测性 4.0:教系统如何思考
人工智能
sunny8659 小时前
Claude Code 跨会话上下文恢复:从 8 次纠正到 0 次的工程实践
人工智能·开源·github
小笼包包仔9 小时前
OpenClaw 多Agent软件开发最佳实践指南
人工智能