将gym更新到Gymnasium后需要修改哪些位置

gym更新到Gymnasium后需要修改的位置

    • [✅ 1. **导入方式变更**](#✅ 1. 导入方式变更)
    • [✅ 2. **环境创建不变**](#✅ 2. 环境创建不变)
    • [✅ 3. **`reset()` 返回值变更**](#✅ 3. reset() 返回值变更)
    • [✅ 4. **`step()` 返回值变更(最重要!)**](#✅ 4. step() 返回值变更(最重要!))
      • [旧版(4 元组)](#旧版(4 元组))
      • [新版(5 元组)](#新版(5 元组))
      • [✅ 如果你仍需要 `done` 变量:](#✅ 如果你仍需要 done 变量:)
    • [✅ 5. **训练循环典型修改示例**](#✅ 5. 训练循环典型修改示例)
    • [✅ 6. **Wrapper 和自定义环境**](#✅ 6. Wrapper 和自定义环境)
    • [✅ 7. **其他注意事项**](#✅ 7. 其他注意事项)
    • [✅ 8. **安装与版本**](#✅ 8. 安装与版本)
    • [✅ 总结:你需要修改的位置](#✅ 总结:你需要修改的位置)
      • [🔧 小技巧:快速检查](#🔧 小技巧:快速检查)

个人学习笔记,仅供自己方便查阅,无其他用途和意思。

将代码从 旧版 gym(≤0.21) 迁移到 新版 Gymnasium(≥0.26,官方继任者) 时,需要修改以下几个关键位置。以下是完整的迁移指南:


✅ 1. 导入方式变更

旧版(gym)

python 复制代码
import gym

新版(Gymnasium)

python 复制代码
import gymnasium as gym

💡 Gymnasium 是 OpenAI Gym 的官方维护版本,API 兼容但更规范。


✅ 2. 环境创建不变

python 复制代码
env = gym.make("CartPole-v1")  # 依然有效

✅ 这一行不需要改

⚠️ 但注意:CartPole-v0 已被标记为过时,建议使用 v1


✅ 3. reset() 返回值变更

旧版

python 复制代码
state = env.reset()  # 返回 observation(如 np.ndarray)

新版(Gymnasium)

python 复制代码
state, info = env.reset()  # 返回 (observation, info_dict)

📌 必须解包! 否则 state 会是 (obs, {}) 元组,导致后续错误。


✅ 4. step() 返回值变更(最重要!)

旧版(4 元组)

python 复制代码
next_state, reward, done, info = env.step(action)

新版(5 元组)

python 复制代码
next_state, reward, terminated, truncated, info = env.step(action)
  • terminated: 因任务逻辑结束(如掉杆、到达目标)
  • truncated: 因外部限制结束(如超时、步数限制)
  • 逻辑上的 "done" = terminated or truncated

✅ 如果你仍需要 done 变量:

python 复制代码
next_state, reward, terminated, truncated, info = env.step(action)
done = terminated or truncated

✅ 5. 训练循环典型修改示例

旧版代码(gym ≤0.21)

python 复制代码
state = env.reset()
for _ in range(max_steps):
    action = agent.get_action(state)
    next_state, reward, done, info = env.step(action)
    agent.store(state, action, reward, next_state, done)
    state = next_state
    if done:
        break

新版代码(Gymnasium)

python 复制代码
state, info = env.reset()  # ← 解包 reset()
for _ in range(max_steps):
    action = agent.get_action(state)
    next_state, reward, terminated, truncated, info = env.step(action)  # ← 5 个返回值
    done = terminated or truncated  # ← 手动合并
    agent.store(state, action, reward, next_state, done)
    state = next_state
    if done:
        break

🔁 每个 episode 开始都要调用 env.reset() 并解包!


✅ 6. Wrapper 和自定义环境

如果你写了自定义环境或使用了 wrapper,需确保:

  • reset() 返回 (obs, info)
  • step() 返回 (obs, reward, terminated, truncated, info)
  • info 必须是字典(可为空 {}

示例:

python 复制代码
class MyEnv(gym.Env):
    def reset(self, seed=None, options=None):
        super().reset(seed=seed)
        obs = ...  # your observation
        return obs, {}  # ← 必须返回 tuple

    def step(self, action):
        ...
        return obs, reward, terminated, truncated, {}

✅ 7. 其他注意事项

项目 说明
render() 用法基本不变,但某些模式(如 human)行为可能微调
seed() 已弃用!改用 reset(seed=123)
action_space.sample() 依然有效
observation_space 依然有效

✅ 8. 安装与版本

bash 复制代码
# 卸载旧 gym(可选)
pip uninstall gym

# 安装 Gymnasium
pip install gymnasium[box2d]  # 如果用 CarRacing 等
# 或
pip install gymnasium

gymnasium 和旧 gym 可共存,但建议统一用 gymnasium


✅ 总结:你需要修改的位置

文件/函数 修改内容
所有 import import gymimport gymnasium as gym
env.reset() 调用处 state = env.reset()state, info = env.reset()
env.step() 调用处 解包为 5 个变量,并用 done = terminated or truncated
自定义环境 确保 resetstep 返回正确元组
经验回放存储 确保存入的是纯 observation(不是 tuple)

🔧 小技巧:快速检查

在训练开始前加一行测试:

python 复制代码
obs, info = env.reset()
print("Reset returns:", type(obs), obs.shape, type(info))
obs, r, term, trunc, info = env.step(env.action_space.sample())
print("Step returns:", len([obs, r, term, trunc, info]))

如果输出符合预期,说明迁移成功。


完成以上修改后,RL代码就能在 Gymnasium 上稳定运行,并兼容 NumPy ≥1.24、PyTorch 等新版依赖。

相关推荐
那个村的李富贵7 小时前
光影魔术师:CANN加速实时图像风格迁移,让每张照片秒变大师画作
人工智能·aigc·cann
腾讯云开发者8 小时前
“痛点”到“通点”!一份让 AI 真正落地产生真金白银的实战指南
人工智能
CareyWYR8 小时前
每周AI论文速递(260202-260206)
人工智能
hopsky9 小时前
大模型生成PPT的技术原理
人工智能
禁默10 小时前
打通 AI 与信号处理的“任督二脉”:Ascend SIP Boost 加速库深度实战
人工智能·信号处理·cann
心疼你的一切10 小时前
昇腾CANN实战落地:从智慧城市到AIGC,解锁五大行业AI应用的算力密码
数据仓库·人工智能·深度学习·aigc·智慧城市·cann
AI绘画哇哒哒10 小时前
【干货收藏】深度解析AI Agent框架:设计原理+主流选型+项目实操,一站式学习指南
人工智能·学习·ai·程序员·大模型·产品经理·转行
数据分析能量站10 小时前
Clawdbot(现名Moltbot)-现状分析
人工智能
那个村的李富贵10 小时前
CANN加速下的AIGC“即时翻译”:AI语音克隆与实时变声实战
人工智能·算法·aigc·cann
二十雨辰10 小时前
[python]-AI大模型
开发语言·人工智能·python