PYG从入门到放弃

第一步:直接看官方文档(因为几乎所有的博客都是复制的官方文档)

Introduction by Example --- pytorch_geometric documentation

在看文档的过程中发现了问题:

1.看到data = Data(x=x, edge_index=edge_index)这行代码时我想知道这个Data到底是啥?里面这些参数又都是啥?于是我果断跳到torch_geometric.data官方文档学习一下:torch_geometric.data.Data --- pytorch_geometric documentation

发现这玩意就是一个描述图的数据对象,用于存储节点级、链接级和图级属性。参数如下:

x (torch.Tensor, 可选) -- 形状为 [num_nodes, num_node_features] 的节点特征矩阵。(默认: None )

edge_index (LongTensor, 可选) -- 形状为 [2, num_edges] 的 COO 格式图连通性。(默认: None )

edge_attr (torch.Tensor, 可选) -- 形状为 [num_edges, num_edge_features] 的边特征矩阵。(默认: None )

y (torch.Tensor, 可选) 训练标签(可能具有任意形状)。例如,如果是节点级别的标签,其形状为 [num_nodes, *];如果是图级别的标签, 其形状为为 [1,*]。(默认: None )

pos (torch.Tensor, 可选) -- 节点位置矩阵,形状 [num_nodes, num_dimensions] 。(默认: None )

time (torch.Tensor, 可选) -- 每个事件的时戳,形状 [num_edges][num_nodes] 。(默认: None )

2.查看参数时,我不明白什么是COO格式的边?

于是查一下稀疏矩阵的常用存储格式(COO、CSR、CSC)_coo csr-CSDN博客,发现这就是一种对稀疏矩阵的高效存储方式,简单说就是将矩阵中的非零元素用坐标和值表示出来,为零的元素不表示,以达到节省空间的目的。data.edge_index 中,第一行表示所有边的起点编号,第二行表示边对应的目标节点编号。

OK,现在已经对torch_geometric.data.Data参数有了一定的认识,可以跳回来继续学习PyG的实例介绍,快速的过一遍,并完成后面的练习来检验你自己的掌握程度。

练习:

1.edge_index.t().contiguous() 是做什么的?

2.从 TUDataset 基准测试套件中加载 "IMDB-BINARY" 数据集,并将其随机分割80%/10%/10% 的训练、验证和测试图。

3.以下输出中的每个数字代表什么意思?

print(batch)

>>> DataBatch(batch=[1082], edge_index=[2, 4066], x=[1082, 21], y=[32])
解答:

1.edge_index.t().contiguous() 是 PyTorch 操作组合,用于将图的边索引(edge_index)进行转置并确保数据在内存中连续。.t() 将二维张量转置(Transpose),即交换行和列的。**.contiguous()**生成一个新的连续内存张量副本,避免因转置导致的非连续内存布局问题。

在 PyTorch 中,转置操作不会复制数据,而是通过调整内存步长(stride)实现。若后续操作(如数据加载或第三方库调用)需要连续内存布局,则必须使用 .contiguous() 生成物理连续的张量副本。

【具体细节自己去看PyG文档】

2.略【自己实现一下】

3.batch=[1082]:

当前批次中所有图的总节点数为1082;

这个张量包含每个节点所属图的索引(0~31),用于区分不同图的节点;

示例:[0,0,0,1,1,2,...] 表示前3个节点属于图0,接着2个节点属于图1,依此类推.

edge_index=[2, 4066]:

2表示边的定义方式(起点节点索引 + 终点节点索引)

当前批次中所有图的总边数4066

每列表示一条边:[[源节点1, 源节点2, ...], [目标节点1, 目标节点2, ...]]

x=[1082, 21]:

节点总数1082(与batch大小对应)

每个节点的特征维度21(对于IMDB-BINARY数据集,表示21种电影类型特征)

y=[32]:

当前批次中包含的图数量32(即batch size);

每个元素是图的分类标签(IMDB-BINARY是二分类:0/1)

相关推荐
VelinX4 小时前
【个人学习||操作系统】
学习
renhongxia14 小时前
ORACLE-SWE:量化Oracle 信息信号对SWE代理的贡献
人工智能·深度学习·学习·语言模型·分类
AI_零食4 小时前
声音分贝模拟与波动动画展示:鸿蒙Flutter框架 实现的声音可视化应用
学习·flutter·华为·开源·harmonyos
Keep Running *4 小时前
Spring Cloud Alibaba_学习笔记
笔记·学习
我不是懒洋洋5 小时前
AI的影响6
笔记
liliwoliliwo5 小时前
deim跑代码记录学习思路
学习
XH华6 小时前
数据结构第九章:树的学习(下)
数据结构·学习
咖啡忍者7 小时前
【SAP CO】4.COPC产品成本控制-3.WIP后台配置
笔记