将gym更新到Gymnasium后需要修改哪些位置

gym更新到Gymnasium后需要修改的位置

    • [✅ 1. **导入方式变更**](#✅ 1. 导入方式变更)
    • [✅ 2. **环境创建不变**](#✅ 2. 环境创建不变)
    • [✅ 3. **`reset()` 返回值变更**](#✅ 3. reset() 返回值变更)
    • [✅ 4. **`step()` 返回值变更(最重要!)**](#✅ 4. step() 返回值变更(最重要!))
      • [旧版(4 元组)](#旧版(4 元组))
      • [新版(5 元组)](#新版(5 元组))
      • [✅ 如果你仍需要 `done` 变量:](#✅ 如果你仍需要 done 变量:)
    • [✅ 5. **训练循环典型修改示例**](#✅ 5. 训练循环典型修改示例)
    • [✅ 6. **Wrapper 和自定义环境**](#✅ 6. Wrapper 和自定义环境)
    • [✅ 7. **其他注意事项**](#✅ 7. 其他注意事项)
    • [✅ 8. **安装与版本**](#✅ 8. 安装与版本)
    • [✅ 总结:你需要修改的位置](#✅ 总结:你需要修改的位置)
      • [🔧 小技巧:快速检查](#🔧 小技巧:快速检查)

个人学习笔记,仅供自己方便查阅,无其他用途和意思。

将代码从 旧版 gym(≤0.21) 迁移到 新版 Gymnasium(≥0.26,官方继任者) 时,需要修改以下几个关键位置。以下是完整的迁移指南:


✅ 1. 导入方式变更

旧版(gym)

python 复制代码
import gym

新版(Gymnasium)

python 复制代码
import gymnasium as gym

💡 Gymnasium 是 OpenAI Gym 的官方维护版本,API 兼容但更规范。


✅ 2. 环境创建不变

python 复制代码
env = gym.make("CartPole-v1")  # 依然有效

✅ 这一行不需要改

⚠️ 但注意:CartPole-v0 已被标记为过时,建议使用 v1


✅ 3. reset() 返回值变更

旧版

python 复制代码
state = env.reset()  # 返回 observation(如 np.ndarray)

新版(Gymnasium)

python 复制代码
state, info = env.reset()  # 返回 (observation, info_dict)

📌 必须解包! 否则 state 会是 (obs, {}) 元组,导致后续错误。


✅ 4. step() 返回值变更(最重要!)

旧版(4 元组)

python 复制代码
next_state, reward, done, info = env.step(action)

新版(5 元组)

python 复制代码
next_state, reward, terminated, truncated, info = env.step(action)
  • terminated: 因任务逻辑结束(如掉杆、到达目标)
  • truncated: 因外部限制结束(如超时、步数限制)
  • 逻辑上的 "done" = terminated or truncated

✅ 如果你仍需要 done 变量:

python 复制代码
next_state, reward, terminated, truncated, info = env.step(action)
done = terminated or truncated

✅ 5. 训练循环典型修改示例

旧版代码(gym ≤0.21)

python 复制代码
state = env.reset()
for _ in range(max_steps):
    action = agent.get_action(state)
    next_state, reward, done, info = env.step(action)
    agent.store(state, action, reward, next_state, done)
    state = next_state
    if done:
        break

新版代码(Gymnasium)

python 复制代码
state, info = env.reset()  # ← 解包 reset()
for _ in range(max_steps):
    action = agent.get_action(state)
    next_state, reward, terminated, truncated, info = env.step(action)  # ← 5 个返回值
    done = terminated or truncated  # ← 手动合并
    agent.store(state, action, reward, next_state, done)
    state = next_state
    if done:
        break

🔁 每个 episode 开始都要调用 env.reset() 并解包!


✅ 6. Wrapper 和自定义环境

如果你写了自定义环境或使用了 wrapper,需确保:

  • reset() 返回 (obs, info)
  • step() 返回 (obs, reward, terminated, truncated, info)
  • info 必须是字典(可为空 {}

示例:

python 复制代码
class MyEnv(gym.Env):
    def reset(self, seed=None, options=None):
        super().reset(seed=seed)
        obs = ...  # your observation
        return obs, {}  # ← 必须返回 tuple

    def step(self, action):
        ...
        return obs, reward, terminated, truncated, {}

✅ 7. 其他注意事项

项目 说明
render() 用法基本不变,但某些模式(如 human)行为可能微调
seed() 已弃用!改用 reset(seed=123)
action_space.sample() 依然有效
observation_space 依然有效

✅ 8. 安装与版本

bash 复制代码
# 卸载旧 gym(可选)
pip uninstall gym

# 安装 Gymnasium
pip install gymnasium[box2d]  # 如果用 CarRacing 等
# 或
pip install gymnasium

gymnasium 和旧 gym 可共存,但建议统一用 gymnasium


✅ 总结:你需要修改的位置

文件/函数 修改内容
所有 import import gymimport gymnasium as gym
env.reset() 调用处 state = env.reset()state, info = env.reset()
env.step() 调用处 解包为 5 个变量,并用 done = terminated or truncated
自定义环境 确保 resetstep 返回正确元组
经验回放存储 确保存入的是纯 observation(不是 tuple)

🔧 小技巧:快速检查

在训练开始前加一行测试:

python 复制代码
obs, info = env.reset()
print("Reset returns:", type(obs), obs.shape, type(info))
obs, r, term, trunc, info = env.step(env.action_space.sample())
print("Step returns:", len([obs, r, term, trunc, info]))

如果输出符合预期,说明迁移成功。


完成以上修改后,RL代码就能在 Gymnasium 上稳定运行,并兼容 NumPy ≥1.24、PyTorch 等新版依赖。

相关推荐
梦想画家1 天前
ToolGuard:让AI Agent严格遵守企业规则的确定性合规框架
人工智能·toolguard
旺财矿工1 天前
小白速通:OpenClaw 2.6.6 Win11 本地化部署完整教程
人工智能·windows·openclaw·龙虾·一键部署小龙虾
默 语1 天前
基于 Spring Boot 3 + LangChain4j 快速构建企业级 AI 应用实战
人工智能·spring boot·后端
weixin_446260851 天前
赋能未来生产力:AI技术如何重塑工作流与产业格局的宏观纲要
人工智能
风落无尘1 天前
第一章《废土》完整学习资料
人工智能
CCC:CarCrazeCurator1 天前
DeepSeek V4 大模型技术评估
人工智能
水如烟1 天前
孤能子视角:重看“劳动,创造美“
人工智能
AI产品测评官1 天前
2026年AI招聘工具深度测评:世纪云猎与递航AI技术路线与应用场景全景解析
人工智能
AI医影跨模态组学1 天前
如何将多模态CT深度学习特征与肿瘤微环境中的免疫相关生物学过程建立关联,并进一步解释其与非小细胞肺癌新辅助免疫化疗后的pCR机制联系
人工智能·深度学习·论文·医学·医学影像·影像组学
2zcode1 天前
基于深度学习的香梨产量预测系统设计与实现
人工智能·深度学习