gym/Gymnasium强化学习玩推箱子游戏

gym/Gymnasium强化学习玩推箱子游戏

gym 框架

源码 https://github.com/openai/gym

文档 https://www.gymlibrary.dev/

自 2021 年以来一直维护 Gym 的团队已将所有未来的开发转移到 Gymnasium,这是 Gym 的替代品(将 gymnasium 导入为 gym),Gym 将不会收到任何未来的更新。请尽快切换到 Gymnasium

Gymnasium 框架

源码 https://github.com/Farama-Foundation/Gymnasium

文档 https://gymnasium.farama.org/

推箱子环境

源码 https://github.com/mpSchrader/gym-sokoban

我用的环境是:

bash 复制代码
$ python --version
  Python 3.7.16

$ python -m pip list 

Package            Version
------------------ ---------
certifi            2022.12.7
charset-normalizer 3.3.2
cloudpickle        2.2.1

gym                0.26.2
gym-notices        0.0.8
gym-sokoban        0.0.6

idna               3.7
imageio            2.31.2
importlib-metadata 6.7.0
numpy              1.21.6
Pillow             9.5.0
pip                22.3.1
pygame             2.6.0
requests           2.31.0
setuptools         65.6.3
tqdm               4.66.5
typing_extensions  4.7.1
urllib3            2.0.7
wheel              0.37.1
zipp               3.15.0

安装

我用的是 Python 3.7.16

bash 复制代码
conda create -p ./venv python=3.7
conda activate ./venv 

直接 pip :

bash 复制代码
python -m pip install gym-sokoban

或者源码安装

bash 复制代码
git clone git@github.com:mpSchrader/gym-sokoban.git
cd gym-sokoban
python -m pip install -e .

然后跑代码测试

test.py

bash 复制代码
import gym
import gym_sokoban

env = gym.make('Sokoban-v2')

# 初始化环境
observation = env.reset()

for t in range(10000):

    env.render(mode='human')

    action = env.action_space.sample()
    observation, reward, done, info = env.step(action)

    print(f"Step {t}: Action={action}, Reward={reward}, Done={done}, Info={info}")

    if done:
        observation = env.reset()

env.close()
相关推荐
无水先生几秒前
图像处理方向的问题总结
图像处理·人工智能
清水白石008几秒前
构建高性能异步 HTTP 客户端:aiohttp 与 httpx 实战解析与性能优化
python·http·性能优化·httpx
阿正的梦工坊2 分钟前
二次预训练与微调的区别
人工智能·深度学习·机器学习·大模型·llm
小宇的天下11 分钟前
Calibre eqDRC(方程化 DRC)核心技术解析与实战指南(14-2)
人工智能·机器学习·支持向量机
qunaa010112 分钟前
YOLO13-C3k2-RFCBAMConv:基于改进卷积的显卡型号识别与分类技术详解
人工智能·数据挖掘
周杰伦fans15 分钟前
BIM(建筑信息模型)不仅仅是一项技术
人工智能
38242782719 分钟前
Edge开发者工具:保留日志与禁用缓存详解
java·前端·javascript·python·selenium
nuowenyadelunwen20 分钟前
Harvard CS50 Week 6 Python
开发语言·python
seasonsyy20 分钟前
再说机器学习与深度学习的关系
人工智能·深度学习·机器学习
饼干,21 分钟前
期末考试3
开发语言·人工智能·python