GRL-图强化学习

GRL代码解析

一、agent.py

这个Python文件agent.py实现了一个强化学习（Reinforcement Learning, RL）的智能体，用于在图环境（graph environment）中进行学习。以下是文件的主要部分的概述：

导入依赖：
- 导入了matplotlib.pyplot用于绘图，tqdm用于在循环中显示进度条。
- 从utils.py和policy.py中导入了一些功能性代码（graph_nn是图神经网络）。
- 从drl.py导入了REINFORCE类，这是强化学习的一种算法。
- 从cora_gcn.py中导入了CoraGraphEnv，可能是图环境的一个实现。
- 从env.py中导入graph_env，可能是定义的环境。
- 从torch库中导入了设备管理和概率分布。
环境配置：
- 设置了使用CUDA（如果可用）或者CPU。
- 设置随机种子以保证可复现性。
- 实例化了graph_env（图形环境）。
超参数定义：
- 定义了学习速率learning_rate，剧集数量episodes，折扣因子gamma，以及日志打印间隔log_interval。
策略网络：
- 实例化了图神经网络graph_nn作为策略网络，根据环境动作空间、输入维度和隐藏维度。
学习器：
- 实例化了REINFORCE算法作为学习器，传入策略网络、学习速率和折扣因子。
学习循环：
- 使用tqdm进行进度显示，迭代episodes次。
- 在每次迭代中重置环境，执行一系列操作直到达到环境的done状态。
- 在每个步骤中，获取当前状态下的动作概率分布，选择动作，并与环境交互获得下一个状态、奖励和是否完成。
- 将这些数据存入学习器的记忆中。
- 更新累计奖励。
- 每次剧集结束后通过learn()方法更新策略网络。
可视化结果：
- 收集每集的奖励，并绘制奖励随时间变化的曲线。
- 将奖励曲线保存为图片。

整体上，这是一个图神经网络通过强化学习来优化策略的任务，代码使用了REINFORCE算法进行策略学习，并最终保存奖励曲线图。

二、drl.py

这个Python源代码文件drl.py实现了一个简单的强化学习算法类REINFORCE，该类使用了策略梯度方法（Policy Gradient Method）进行参数优化。以下是文件概述：

目的：
- 定义并实现了一个名为REINFORCE的强化学习算法类。
- 用于优化给定的策略函数（例如图神经网络模型）。
主要特征：
- 依赖于PyTorch库来构建和训练模型。
- 使用了Adam优化算法进行参数优化。
- 包含了一个经验数据存储池（experience buffer）用于存储经验数据。
- 引入了基线（baseline）以提高学习稳定性。
类成员：
- policy：策略函数，待优化的神经网络模型。
- optimizer：优化算子，用于更新模型参数。
- gamma：折扣因子，用于计算未来的回报。
- experience_buffer：存储经验数据的列表。
- baseline：用于减少方差且提高学习效率的基线。
方法：
- __init__：初始化方法，设置优化器和相关参数。
- memory_data(self, data)：将新的经验数据添加到经验池中。
- learn(self)：
  - 计算折扣回报并进行反向传播。
  - 如果基线数据少于100个，直接用累计折现回报作为loss。
  - 如果基线数据超过100个，使用最近10个回报的平均值作为基线，以减少方差。
注意事项：
- 代码中有大量的空行，应该清理。
- 在计算loss时，应注意符号的使用，避免潜在的错误。
- 确认prob是否应该是一个log概率，这在策略梯度方法中是常见的。
- 基线计算（在else部分）通过转换最近的回报为一个PyTorch张量来计算，这需要和模型的数据类型保持一致。

总结：drl.py文件定义了强化学习算法REINFORCE，主要用于通过梯度上升法来优化给定策略网络。其中包含了保存经验数据、计算折扣回报、更新模型参数等方法。

三、env.py

这个env.py文件定义了一个基于图的环境模型类graph_env，它是OpenAI Gym环境的一个封装器。以下是概述：

目的： 旨在将标准的Gym环境（在这个例子中是'CartPole-v1'）的状态转换成图数据结构，以便可以使用图神经网络（Graph Neural Networks，GNNs）进行学习和处理。
依赖：
- gym：用于导入OpenAI Gym环境。
- torch：用于创建和操作张量。
- torch_geometric.data：用于处理图数据结构。
核心类：
- graph_env：继承自gym.Env，重写了标准的Gym环境的部分功能，使其能够返回图格式数据。
功能：
- __init__：初始化方法，创建一个CartPole-v1环境的实例，并设置观察和动作空间。
- to_pyg_data：将环境状态数据转换成一个可以被torch_geometric处理的图数据结构（Data对象），包括节点特征和边索引。
- reset：重置环境到初始状态，并将这个状态转换为图数据结构。
- step：根据采取的动作将环境推进到下一个状态，并返回转换后的图状态、奖励、环境是否结束以及附加信息。
图数据构建：
- 在to_pyg_data方法中，节点特征是由当前状态的不同组合构成的，边索引是由节点全排列生成的，表示图中所有可能的边。
适用性：
- 这个类适用于希望将图神经网络应用于像CartPole这样的经典控制问题环境的情况。
注意点：
- 这个简单的转换可能不足以表示所有类型的环境状态为图数据结构，特别是当环境复杂性提高时。
- permutations用于生成图中所有可能的边，这并不适用于所有图场景，因为它假设所有节点之间都存在潜在的连接。

四、policy.py

这是一个用PyTorch编写的图神经网络（Graph Neural Network, GNN）模型，主要用于处理图结构的数据。以下是该源代码的概述：

依赖库：
- torch：PyTorch的核心。
- torch.nn：PyTorch的神经网络模块。
- torch.nn.functional：PyTorch的函数式API，用于激活函数等。
- torch_geometric.nn：用于图神经网络的PyTorch几何扩展库，包含专门的图处理层。
设备配置：
- 自动检查是否可用GPU，并将设备设置为cuda:0，否则使用CPU。
类定义：
- graph_nn：一个继承自nn.Module的图神经网络类。
  - 初始化参数 ：
    - action_space：动作空间的大小，决定输出层的神经元数。
    - input_dim：输入特征的维度。
    - hidden_dim：隐藏层神经元的维度。
  - 网络结构 ：
    - GCNConv：图卷积层。
    - nn.Linear：两个全连接层。
    - LayerNorm：图归一化层（但在实际的前向传播中并没有使用）。
  - 前向传播 ：
    - 采用ReLU作为激活函数。
    - 使用全局池化来减少图的特征到单点特征。
    - 最后使用log-softmax作为输出层，常用于分类任务。
前向传播函数：
- forward(self,x,edge_index)：定义了网络的前向传播过程，接收节点特征x和边索引edge_index作为输入，并输出节点的分类log-softmax结果。
注解：
- 代码中有一些被注释掉的部分，可能是以前版本的操作，如self.layer_norm的调用方式。

这个模型是一个基于图的结构化数据学习框架，可以用于在图上的分类问题或其他需要在节点或图级别进行预测的问题。

五、utils.py

概述：
utils.py 是一个Python模块，属于一个用于图形神经网络（Graph Neural Network, GNN）相关项目的工具脚本。以下是该模块的功能概述：

导入库和模块：
- torch：导入PyTorch库，用于构建和训练神经网络。
- torch_geometric.data.Data：从PyTorch Geometric中导入Data类，用于处理图形数据。
- itertools.permutations：导入itertools中的permutations，用于生成可迭代对象的排列。
- matplotlib.pyplot：用于绘制图表。
- numpy：使用NumPy进行数值计算。
- random：用于生成随机数。
功能函数：
- seed_torch(seed)：设置PyTorch、NumPy和Python的随机种子，以保证可重复性。如果CUDNN可用，还将设置相关选项以确保算法的确定性执行。
- plot_reward(reward)：接收一个奖励数组并绘制奖励曲线。此函数使用matplotlib库来创建图表，用于分析策略执行过程中累积奖励随时间（或迭代次数）的变化。
未使用的代码 ：有一行代码 plt.subplot(1, 3, 1) 被注释掉，说明可能原本计划在一个更大的画布上绘制多个子图，但最终没有使用。

这个模块可能用于支持图形数据的处理、结果的可视化以及实验的可重复性。它作为项目的一部分，可以被其他脚本或模块调用以提供辅助功能。

以下是使用Markdown格式描述各个文件功能的表格：

文件路径	功能描述
`agent.py`	实现了一个强化学习智能体，用于在图环境中使用REINFORCE算法进行策略学习。
`drl.py`	定义并实现了REINFORCE算法类，基于策略梯度方法优化策略网络。
`env.py`	封装了标准的Gym环境，将其转换为图数据结构，以便可以使用图神经网络进行学习和处理。
`policy.py`	实现了一个图神经网络模型，用作策略网络来处理图结构的数据并输出动作概率分布。
`utils.py`	提供了一系列工具函数，包括设置随机种子、绘图等，用于支持图神经网络训练过程。

整体程序功能的概括：

这个程序是一个基于图神经网络和强化学习的框架，旨在通过策略梯度方法学习在图形环境中的最优策略。