PYG从入门到放弃

第一步：直接看官方文档（因为几乎所有的博客都是复制的官方文档）

Introduction by Example --- pytorch_geometric documentation

在看文档的过程中发现了问题：

1.看到data = Data(x=x, edge_index=edge_index)这行代码时我想知道这个Data到底是啥？里面这些参数又都是啥？于是我果断跳到torch_geometric.data官方文档学习一下：torch_geometric.data.Data --- pytorch_geometric documentation

发现这玩意就是一个描述图的数据对象，用于存储节点级、链接级和图级属性。参数如下：

x (torch.Tensor, 可选) -- 形状为 [num_nodes, num_node_features] 的节点特征矩阵。(默认: None )

edge_index (LongTensor, 可选) -- 形状为 [2, num_edges] 的 COO 格式图连通性。(默认: None )

edge_attr (torch.Tensor, 可选) -- 形状为 [num_edges, num_edge_features] 的边特征矩阵。(默认: None )

y (torch.Tensor, 可选) 训练标签（可能具有任意形状）。例如，如果是节点级别的标签，其形状为 [num_nodes, *]；如果是图级别的标签，其形状为为 [1,*]。(默认: None )

pos (torch.Tensor, 可选) -- 节点位置矩阵，形状 [num_nodes, num_dimensions] 。(默认: None )

time (torch.Tensor, 可选) -- 每个事件的时戳，形状 [num_edges] 或 [num_nodes] 。(默认: None )

2.查看参数时，我不明白什么是COO格式的边？

于是查一下稀疏矩阵的常用存储格式（COO、CSR、CSC）_coo csr-CSDN博客，发现这就是一种对稀疏矩阵的高效存储方式，简单说就是将矩阵中的非零元素用坐标和值表示出来，为零的元素不表示，以达到节省空间的目的。data.edge_index 中，第一行表示所有边的起点编号，第二行表示边对应的目标节点编号。

OK，现在已经对torch_geometric.data.Data参数有了一定的认识，可以跳回来继续学习PyG的实例介绍，快速的过一遍，并完成后面的练习来检验你自己的掌握程度。

练习：

1.edge_index.t().contiguous() 是做什么的？

2.从 TUDataset 基准测试套件中加载 "IMDB-BINARY" 数据集，并将其随机分割80%/10%/10% 的训练、验证和测试图。

3.以下输出中的每个数字代表什么意思？

print(batch)

>>> DataBatch(batch=[1082], edge_index=[2, 4066], x=[1082, 21], y=[32])
解答：

1.edge_index.t().contiguous() 是 PyTorch 操作组合，用于将图的边索引（edge_index）进行转置并确保数据在内存中连续。.t() 将二维张量转置（Transpose），即交换行和列的。**.contiguous()**生成一个新的连续内存张量副本，避免因转置导致的非连续内存布局问题。

在 PyTorch 中，转置操作不会复制数据，而是通过调整内存步长（stride）实现。若后续操作（如数据加载或第三方库调用）需要连续内存布局，则必须使用 .contiguous() 生成物理连续的张量副本。

【具体细节自己去看PyG文档】

2.略【自己实现一下】

3.batch=[1082]：

当前批次中所有图的总节点数为1082；

这个张量包含每个节点所属图的索引（0~31），用于区分不同图的节点；

示例：[0,0,0,1,1,2,...] 表示前3个节点属于图0，接着2个节点属于图1，依此类推.

edge_index=[2, 4066]：

2表示边的定义方式（起点节点索引 + 终点节点索引）

当前批次中所有图的总边数4066

每列表示一条边：[[源节点1, 源节点2, ...], [目标节点1, 目标节点2, ...]]

x=[1082, 21]：

节点总数1082（与batch大小对应）

每个节点的特征维度21（对于IMDB-BINARY数据集，表示21种电影类型特征）

y=[32]：

当前批次中包含的图数量32（即batch size）；

每个元素是图的分类标签（IMDB-BINARY是二分类：0/1）