多智能体强化学习--MAPPO(pytorch代码详解)

还有你Y2024-01-29 9:41

标题

代码详解
- Actor和Critic网络的设置

代码详解

代码链接（点击跳转）

Actor和Critic网络的设置

基本设置：3个智能体、每个智能体观测空间18维。
Actor网络：实例化一个actor对象，input-size是18
Critic网络：实例化一个Critic对象，input-size是18x3=54
在choose_action调用actor网络的时候，传入的直接是三个智能体的参数，tensor_size=[3,18]；也就是说，智能体之间是共用一套参数的，也就是参数共享；（三个18维向量之间是相互独立的，改变其中一个向量的值，经过神经网络后，只有他自己的输出值改变了，而其他两个向量仍然是原来的大小）；
在训练时，可以认为只有一个Critic网络，因此这叫做集中式训练；
值得注意的是，Critic网络的实际输入的向量的值是[3,54]！！而这三个向量是一模一样的。
关于reward，代码给出的实例是所有智能体共享同一奖励函数，因此将策略梯度算法扩展到多智能体场景下的最简单的方式就是每个智能体共用同一个全局 critic 函数。（但好像值分解的方法更合理一点）

2.box类

box类对应于多维连续空间
Box空间可以定义多维空间，每一个维度可以用一个最低值和最大值来约束
定义一个多维的Box空间需要知道每一个维度的最小最大值，当然也要知道维数。

作者在文献附录中有谈到说如果智能体是同种类的就采用相同的网络参数，对于每个智能体内部也可以采用各自的actor和critic网络，但是作者为了符号的便利性，直接就用的一个网络参数来表示)。

上一篇：springmvc的入参校验、hibernate-validator、spring-boot-starter-validation、final-validato

下一篇：Jmeter 分布式测试

热门推荐

01GitHub 镜像站点 02【OpenClaw 本地实战 Ep.3】突破瓶颈：强制修改 openclaw.json 解锁 32k 上下文记忆 03OpenClaw 使用和管理 MCP 完全指南 04OpenClaw + 飞书（Feishu）环境搭建指南 05OpenClaw优化飞书API 额度已耗尽问题 06Clawdbot部署教程：解决‘gateway token missing’授权问题的完整步骤 07Window 10部署openclaw报错node.exe : npm error code 128 08Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 09OpenClaw 接入阿里云百炼 Coding Plan 指南 10OpenClaw大龙虾机器人完整安装教程