gym/Gymnasium强化学习玩推箱子游戏

gym/Gymnasium强化学习玩推箱子游戏

gym 框架

源码 https://github.com/openai/gym

文档 https://www.gymlibrary.dev/

自 2021 年以来一直维护 Gym 的团队已将所有未来的开发转移到 Gymnasium,这是 Gym 的替代品(将 gymnasium 导入为 gym),Gym 将不会收到任何未来的更新。请尽快切换到 Gymnasium

Gymnasium 框架

源码 https://github.com/Farama-Foundation/Gymnasium

文档 https://gymnasium.farama.org/

推箱子环境

源码 https://github.com/mpSchrader/gym-sokoban

我用的环境是:

bash 复制代码
$ python --version
  Python 3.7.16

$ python -m pip list 

Package            Version
------------------ ---------
certifi            2022.12.7
charset-normalizer 3.3.2
cloudpickle        2.2.1

gym                0.26.2
gym-notices        0.0.8
gym-sokoban        0.0.6

idna               3.7
imageio            2.31.2
importlib-metadata 6.7.0
numpy              1.21.6
Pillow             9.5.0
pip                22.3.1
pygame             2.6.0
requests           2.31.0
setuptools         65.6.3
tqdm               4.66.5
typing_extensions  4.7.1
urllib3            2.0.7
wheel              0.37.1
zipp               3.15.0

安装

我用的是 Python 3.7.16

bash 复制代码
conda create -p ./venv python=3.7
conda activate ./venv 

直接 pip :

bash 复制代码
python -m pip install gym-sokoban

或者源码安装

bash 复制代码
git clone git@github.com:mpSchrader/gym-sokoban.git
cd gym-sokoban
python -m pip install -e .

然后跑代码测试

test.py

bash 复制代码
import gym
import gym_sokoban

env = gym.make('Sokoban-v2')

# 初始化环境
observation = env.reset()

for t in range(10000):

    env.render(mode='human')

    action = env.action_space.sample()
    observation, reward, done, info = env.step(action)

    print(f"Step {t}: Action={action}, Reward={reward}, Done={done}, Info={info}")

    if done:
        observation = env.reset()

env.close()
相关推荐
悟乙己1 分钟前
译|生存分析Survival Analysis案例入门讲解(一)
人工智能·机器学习·数据挖掘·生存分析·因果推荐
无奈何杨4 分钟前
从“指点江山”到“赛博求雨”的心路历程
人工智能
老贾专利烩13 分钟前
智能健康项链专利拆解:ECG 与 TBI 双模态监测的硬件架构与信号融合
人工智能·科技·健康医疗
无奈何杨15 分钟前
MCP Server工具参数设计与AI约束指南
人工智能
青梅主码16 分钟前
中国在世界人工智能大会上发布《人工智能全球治理行动计划》:中美 AI 竞争白热化,贸易紧张局势下的全球治理新篇章
人工智能
都叫我大帅哥20 分钟前
决策树:从零开始的机器学习“算命大师”修炼手册
python·机器学习
这里有鱼汤21 分钟前
首个支持A股的AI多智能体金融系统,来了
前端·python
云霄IT39 分钟前
python使用ffmpeg录制rtmp/m3u8推流视频并按ctrl+c实现优雅退出
python·ffmpeg·音视频
都叫我大帅哥1 小时前
我给大模型装上“记忆黄金券”:LangChain的ConversationSummaryBufferMemory全解析
python·langchain·ai编程
桃子叔叔1 小时前
28天0基础前端工程师完成Flask接口编写
前端·python·flask