gym/Gymnasium强化学习玩推箱子游戏

gym/Gymnasium强化学习玩推箱子游戏

gym 框架

源码 https://github.com/openai/gym

文档 https://www.gymlibrary.dev/

自 2021 年以来一直维护 Gym 的团队已将所有未来的开发转移到 Gymnasium,这是 Gym 的替代品(将 gymnasium 导入为 gym),Gym 将不会收到任何未来的更新。请尽快切换到 Gymnasium

Gymnasium 框架

源码 https://github.com/Farama-Foundation/Gymnasium

文档 https://gymnasium.farama.org/

推箱子环境

源码 https://github.com/mpSchrader/gym-sokoban

我用的环境是:

bash 复制代码
$ python --version
  Python 3.7.16

$ python -m pip list 

Package            Version
------------------ ---------
certifi            2022.12.7
charset-normalizer 3.3.2
cloudpickle        2.2.1

gym                0.26.2
gym-notices        0.0.8
gym-sokoban        0.0.6

idna               3.7
imageio            2.31.2
importlib-metadata 6.7.0
numpy              1.21.6
Pillow             9.5.0
pip                22.3.1
pygame             2.6.0
requests           2.31.0
setuptools         65.6.3
tqdm               4.66.5
typing_extensions  4.7.1
urllib3            2.0.7
wheel              0.37.1
zipp               3.15.0

安装

我用的是 Python 3.7.16

bash 复制代码
conda create -p ./venv python=3.7
conda activate ./venv 

直接 pip :

bash 复制代码
python -m pip install gym-sokoban

或者源码安装

bash 复制代码
git clone git@github.com:mpSchrader/gym-sokoban.git
cd gym-sokoban
python -m pip install -e .

然后跑代码测试

test.py

bash 复制代码
import gym
import gym_sokoban

env = gym.make('Sokoban-v2')

# 初始化环境
observation = env.reset()

for t in range(10000):

    env.render(mode='human')

    action = env.action_space.sample()
    observation, reward, done, info = env.step(action)

    print(f"Step {t}: Action={action}, Reward={reward}, Done={done}, Info={info}")

    if done:
        observation = env.reset()

env.close()
相关推荐
金銀銅鐵5 小时前
[Python] 基于欧几里得算法,实现分数约分计算器
python·数学
冬奇Lab7 小时前
Workflow 系列(03):状态管理——持久化、幂等性与版本绑定
人工智能·工作流引擎
Lyn_Li7 小时前
Kaggle Top 5 | 198只股票、200条数据的金融预测——BattleFin高分方案从零复现
python·kaggle·比赛复盘·金融预测
冬奇Lab7 小时前
每日一个开源项目(第146篇):openpilot - 开源自动驾驶辅助系统,曾在 Consumer Reports 评测中超过特斯拉 Autopilot
人工智能·开源·自动驾驶
吴佳浩8 小时前
AI 工程师知识地图:模型格式、框架、部署工具一次讲明白
人工智能·aigc·ai编程
IT_陈寒9 小时前
Java的Date类又坑了我一次,改用时间戳真香
前端·人工智能·后端
码农胖大海9 小时前
AI额度不够用的解决方案
人工智能
后端小肥肠9 小时前
小红书虚拟商品怎么做?我先用 Skill 跑通了壁纸品类
人工智能·aigc·agent
feiyu_gao9 小时前
从零搭建个人 AI 工作台:一个管理者的 3 个月实验
人工智能·aigc·团队管理