PettingZoo 学习

前言:继上上周和上周对TorchRL和BenchMARL的学习之后,基本了解相关库的实际操作;

本周开启MARL环境PettingZoo的学习,该环境库类似SARL下的Gym;

对于MARL,该库给了两种形式:AEC和Parallel;

AEC API

AEC是默认的形式,并且该库提供了两种转换的包装器Wrappers;

用法:

实例化;

reset;

Loop:

这里的区别就是需要last来获得输出,而parallel直接在step就实现了输出;

这是因为AEC本身就是串行的

动作掩码

动作掩码 (Action Mask) 的作用正是为了在回合制或复杂规则游戏中处理非法动作:

  1. 表示合法性: 动作掩码是一个布尔数组或向量,它标识了在当前状态下,哪些动作是有效的(合法的),哪些是无效的(非法的)。

  2. 限制采样空间: 通过将这个掩码作为参数传递给动作空间的 sample() 方法,环境或策略可以确保随机采样(或策略选择)只会从 合法的动作集合 中进行。

  3. 最终结果: 这种机制保证了智能体不会选择非法动作,这是在国际象棋这类复杂规则环境中进行有效策略学习的必要条件。

这部分体现了pettingZoo的设计理念

就是引入了虚拟自然

Parallel API 并行 API

相关推荐
XH华22 分钟前
数据结构第九章:树的学习(下)
数据结构·学习
aWty_2 小时前
实分析入门(1)--皮亚诺和自然数
学习
weixin_513449963 小时前
walk_these_ways项目学习记录第八篇(通过行为多样性 (MoB) 实现地形泛化)--策略网络
开发语言·人工智能·python·学习
LX567773 小时前
传统编辑如何考取AI内容编辑师认证?学习路径详解
人工智能·学习
songyuc3 小时前
BM2『链表内指定区间反转』学习笔记
学习·链表
L1624763 小时前
Kubernetes 完整学习手册(1 主多从 + 纯 YAML 部署 + 访问原理)
学习·容器·kubernetes
weixin_513449964 小时前
walk_these_ways项目学习记录第七篇(通过行为多样性 (MoB) 实现地形泛化)--核心环境下
人工智能·python·学习
管鲍考试学习系统4 小时前
在线考试系统是什么?功能、部署、应用场景全详解(管鲍考试学习系统 V8.0 深度版)
学习·架构·在线考试·考试系统·培训考试·考试练习
CheerWWW4 小时前
深入理解计算机系统——位运算、树状数组
笔记·学习·算法·计算机系统