Gym（Gymnasium）仿真环境详解（二）：环境简介、入门算法、调参要点、核心挑战

OpenAI Gym 目前已由 Farama Foundation 接管维护并更名为 Gymnasium，接口与原 Gym 高度兼容，是强化学习领域最主流的仿真环境库。以下按类别逐一介绍常用环境简介、入门算法、调参要点、核心挑战特性。

一、经典控制环境（Classic Control）

1. CartPole-v1

环境简介：一辆可沿水平轨道左右移动的小车上，竖直铰接一根倒立摆杆。系统初始时杆处于近似竖直状态，重力会使杆自然倾倒。智能体通过对小车施加向左或向右的离散推力，抵消杆的倾倒趋势，使其保持竖直向上。当杆的倾斜角度超过阈值、小车驶出轨道边界，或坚持达到 500 步时，回合结束。每坚持一步获得 + 1 奖励，目标是尽可能延长平衡时间。
推荐入门算法：离散动作 + 低维连续状态，优先用 DQN（深度强化学习入门必练）、REINFORCE（策略梯度入门）、离散动作版 PPO；状态离散化后也可验证表格型 Q-Learning、SARSA。
典型调参要点：
- 网络结构极简：2 层全连接（64/64 单元）即可收敛，无需复杂结构；
- DQN：学习率 1e-3 ~ 3e-4，γ=0.99，目标网络每 100~500 步更新一次，经验回放池容量 10000 足够；
- 策略梯度类：熵系数不宜过大，避免过度探索导致杆持续倾倒。
核心挑战：系统本身是一阶不稳定系统，随机策略下几乎全程失败，初期正样本极少；杆的角度偏差呈非线性增长，对值函数拟合精度敏感；任务门槛低，但用于验证算法稳定性时容易出现 "假收敛"。

2. MountainCar-v0 / MountainCarContinuous-v0

环境简介：一辆动力不足的小车位于山谷底部，两侧是斜坡，右侧山顶为目标终点。小车自身动力无法直接冲上陡坡，必须通过左右往复摆动积累惯性，借助势能与动能的转换才能登顶。离散版提供左加速、空档、右加速 3 种离散动作；连续版可输出连续大小的驱动力。每走一步获得 - 1 奖励，无其他正反馈，登顶后回合结束。目标是以最少步数到达山顶。
推荐入门算法：
- 离散版（v0）：DQN、Double DQN；状态离散化后可验证 Q-Learning；
- 连续版：PPO、DDPG、SAC。
典型调参要点：
- 奖励高度稀疏，必须设置较大的 γ（≥0.99），保证远期登顶奖励能有效回溯；
- 探索率 ε 衰减速度要慢，保证智能体能充分探索 "先退后进" 的反直觉动作序列；
- 连续版需对动作力矩做归一化裁剪，避免动力溢出或不足。
核心挑战：典型稀疏延迟奖励场景，登顶前全程只有负奖励，智能体极易陷入 "原地不动" 的局部最优；欠驱动系统动力不足，必须依靠惯性势能转换，策略违背直觉，探索难度大；信用分配链路长，登顶的正奖励需要回溯数十步。

3. Pendulum-v1

环境简介：一根末端带重物的摆杆可绕中心轴自由转动，初始时刻随机处于下摆或倾斜状态。智能体通过向转轴施加连续大小的力矩，驱动摆杆摆动并最终稳定在竖直向上的倒立位置。奖励由摆杆竖直程度、角速度大小和力矩消耗共同决定，角度越偏、转速越快、力矩越大，扣分越多。无明确成功终止条件，目标是在有限步数内维持最高的平均姿态得分。
推荐入门算法：连续控制入门基准，优先 PPO、DDPG、SAC。
典型调参要点：
- 状态用 cosθ/sinθ 编码，非线性强，critic 网络需保证拟合能力，2 层 128 单元起步；
- 动作空间为连续力矩，需严格裁剪到 $-2, 2$ 范围内，奖励与力矩大小负相关，需平衡控制精度与能耗；
- γ=0.99，学习率 actor 取 1e-4 ~ 3e-4，critic 可稍高。
核心挑战：从下摆状态到竖直向上需要多步积累能量，控制序列长；力矩过大容易超调震荡，过小则无法摆到最高点，对精细控制精度要求高；全程无明确 "成功" 终止信号，只有持续的姿态奖励，优化目标不直观。

4. Acrobot-v1

环境简介：由两个连杆铰接组成的双摆系统，仅第二个关节配备驱动电机，第一个关节无动力，属于典型欠驱动系统。智能体通过对第二关节施加正、负或零力矩，利用连杆间的动力学耦合效应，使整个双摆逐步摆动升高。当末端连杆的高度超过指定阈值时，回合视为成功。每步奖励为 - 1，目标是以最少步数完成摆起动作。
推荐入门算法：离散动作欠驱动系统，优先 DQN、离散版 PPO、REINFORCE。
典型调参要点：
- 长序列延迟奖励，γ=0.99，配合 GAE（广义优势估计）可显著提升策略梯度类算法效果；
- 状态维度 6 维，网络 2 层 128 单元即可；
- 探索强度需高于 CartPole，初期几乎无法触达目标高度，正样本稀缺。
核心挑战：典型欠驱动系统，仅能驱动第二个关节，必须利用连杆间的动力学耦合间接控制第一个关节；奖励延迟极强，需要数十步摆动积累能量才能达标，信用分配难度大；多自由度非线性耦合，系统动力学复杂。

二、玩具文本环境（Toy Text）

1. FrozenLake-v1

环境简介：在一个方格组成的结冰湖面上，智能体从左上角起点出发，目标是走到右下角的终点格子。湖面分为普通冰面和冰洞两类：踩到冰洞会掉入水中，回合失败；到达终点获得 + 1 奖励。冰面摩擦力不足，执行上下左右移动动作时有概率打滑偏移，并非每次都能精准到达目标格。任务核心是在随机环境中找到一条安全可行的路径。
推荐入门算法：离散状态 + 随机转移，表格型算法首选：值迭代、策略迭代、Q-Learning、SARSA；也可用于验证小型 DQN。
典型调参要点：
- 表格型算法：学习率 α=0.1~0.5，γ=0.99，ε-greedy 初始 ε=1.0，缓慢衰减到 0.1；
- 环境存在随机打滑，不适合用确定性策略，on-policy 的 SARSA 通常比 Q-Learning 更稳健；
- 4×4 版本入门友好，8×8 版本需大幅增加训练步数。
核心挑战：非确定性状态转移，动作执行结果有概率偏移，策略必须具备鲁棒性；奖励极度稀疏，仅终点有正奖励，智能体容易陷入 "原地徘徊" 的局部最优；冰洞与安全路径边界模糊，探索风险高。

2. Taxi-v3

环境简介：在 5×5 的网格城市中，出租车需要完成乘客接送任务。地图上有固定的乘客候车点和目的地点，出租车初始位置随机。智能体可执行上下左右移动、接客、送客共 6 种动作。成功将乘客送达目的地获得大额正奖励，在无乘客处错误接客或在错误地点送客将被扣分。目标是以最少步骤完成一次完整的接送流程。
推荐入门算法：中等规模离散状态，优先表格型 Q-Learning、SARSA、Expected SARSA。
典型调参要点：
- 状态空间共 500 个，表格可完全存储，α=0.1~0.3，γ=0.99；
- 初始 ε=0.5~1.0，逐步衰减，保证对 "接客 - 送客" 全流程的充分探索；
- 非法操作（空接、乱送）有负奖励，无需额外奖励塑形。
核心挑战：典型多阶段时序决策任务，包含 "导航到乘客→接客→导航到目的地→送客" 四个子阶段，信用分配链路长；状态由多个属性组合而成，初期探索效率低，需要大量交互才能覆盖核心状态；需要学习动作的 "上下文合法性"，不同状态下动作优先级完全不同。

3. CliffWalking-v0

环境简介：在一行靠悬崖的网格路径上，智能体从左下角起点出发，目标是走到右下角终点。网格下方紧邻悬崖，一旦踏入悬崖区域会立即获得大额负惩罚并重置回起点。每走一步扣少量分数，到达终点获得正奖励。环境为确定性转移，执行动作的结果完全可预测。该环境专门用于对比不同算法的风险偏好。
推荐入门算法：专为对比 on-policy /off-policy 设计，必选 Q-Learning（off-policy）、SARSA（on-policy）对照实验。
典型调参要点：
- 环境确定性强，收敛速度快，α=0.1~0.5，γ=0.9；
- 固定中等大小的 ε（如 0.1），可稳定复现 "Q-Learning 走悬崖边最优路径、SARSA 走远路安全路径" 的经典差异；
- 无需复杂调参，核心用于直观体现算法特性。
核心挑战：探索风险极高，靠近悬崖一步失误即触发大额惩罚并重置；最优路径与安全路径完全分离，直接体现算法的风险偏好；环境无随机性，算法差异会被放大，适合验证算法的理论特性。

三、Box2D 物理环境

1. LunarLander-v2 / LunarLanderContinuous-v2

环境简介：一艘带三支推进器（主引擎 + 左右姿态推进器）的月球着陆器从空中初始位置下落，智能体控制推进器的开关与推力，使着陆器平稳降落在地面中央的指定平台上。着陆器具有位置、速度、角度、角速度等物理状态，支腿触地有接触反馈。平稳着陆在平台内获得正奖励，坠毁、飞出边界、燃料消耗过多都会扣分。离散版只有开关式推进器，连续版可无级调节推力大小。
推荐入门算法：
- 离散版：DQN、Double DQN、离散版 PPO；
- 连续版：PPO、SAC、DDPG。
典型调参要点：
- 8 维连续状态，网络 2 层 128~256 单元即可；
- 奖励包含位置、姿态、速度、燃料、接触多个维度，数值波动较大，可做奖励归一化提升稳定性；
- DQN 目标网络更新频率设为每 500~1000 步，避免值函数震荡。
核心挑战：多目标冲突优化 ------ 既要着陆精准，又要姿态平稳，还要节省燃料，指标间互相制约；着陆瞬间的接触冲击动力学复杂，容易因速度过快坠毁或侧翻；降落过程是不可逆的下降过程，容错率低，后期修正空间小。

2. BipedalWalker-v3 / BipedalWalkerHardcore-v3

环境简介：一个拥有两条腿、共 4 个驱动关节的双足机器人站在平地上，智能体控制每个关节输出连续力矩，驱动机器人向前行走。机器人具有躯干姿态、关节角度、腿部接触传感器等 24 维状态，摔倒后回合终止。每向前移动一段距离获得正奖励，消耗力矩会有少量扣分。普通版为平坦地面；Hardcore 版随机生成台阶、凹坑、障碍物等复杂地形，难度大幅提升。
推荐入门算法：连续双足控制基准，优先 PPO、SAC、TD3；普通版也可用 DDPG 入门。
典型调参要点：
- 普通版：24 维状态、4 维连续动作，网络 2 层 256 单元，γ=0.99，PPO 裁剪系数 0.2，GAE λ=0.95；
- Hardcore 版：提升网络容量至 512 单元，增大熵系数增强探索，训练步数翻倍；
- 前进奖励与步长相关，可适当做奖励缩放，避免值函数范围过大。
核心挑战：
- 普通版：双足动态平衡难度高，摔倒即终止，初期样本几乎全是失败样本，学习效率低；腿部接触力波动大，步态协调需要精细的关节力矩配合；
- Hardcore 版：地形随机且复杂，平地训练的策略泛化性极差，对策略的鲁棒性和自适应能力要求极高。

3. CarRacing-v2

环境简介：俯视视角的 2D 赛车游戏，智能体控制一辆赛车在随机生成的环形赛道上行驶。状态输入为 96×96 的 RGB 像素图像，动作包括连续转向、加速和刹车。赛车碾压赛道边缘的检测点时获得正奖励，驶出赛道、逆向行驶会被扣分，超时未到达新检测点回合终止。目标是在规定时间内跑完赛道，获得尽可能高的分数。
推荐入门算法：像素级连续控制，优先基于 CNN 的 PPO、SAC；动作离散化后也可用 DQN。
典型调参要点：
- 图像预处理：将 96×96 RGB 转为 84×84 灰度图，堆叠 4 帧输入以提取速度 / 运动信息；
- CNN 用 2\3 层卷积即可，全连接层 128\256 单元；
- 学习率调低至 1e-4 ~ 2e-4，奖励裁剪到合理范围，避免驶出赛道的大额惩罚主导梯度；
- 训练初期可加入少量人类演示数据加速收敛。
核心挑战：端到端视觉强化学习，样本效率极低，需要大量交互才能学到有效视觉特征；连续动作的精细度要求高，转向、油门、刹车的配合容错率低；有限视野下需要预判赛道走向，长程规划能力要求高；奖励稀疏，驶出赛道惩罚大，容易陷入 "原地打转" 的局部最优。

四、Atari 游戏环境（ALE v5）

1. Pong-v5

环境简介：经典双人乒乓球对战游戏，玩家控制一侧的竖直球拍，上下移动击打乒乓球。对手为内置 AI，球越过对方球拍得 1 分，越过己方球拍失 1 分。先得到 21 分的一方获胜，回合结束。状态为游戏原始像素画面，动作为球拍上移、下移、静止等离散选项。是 Atari 环境中难度最低、收敛最快的基准任务。
推荐入门算法：深度强化学习视觉入门标杆，优先 DQN、Double DQN、离散版 PPO / A2C。
典型调参要点：
- 标准 Atari 预处理：210×160 原图裁剪缩放为 84×84 灰度图，堆叠 4 帧，奖励裁剪到 $-1, 1$ ；
- DQN：经验回放池容量 100 万，目标网络每 10000 步更新，学习率 1e-4，γ=0.99；
- 游戏难度低，是验证视觉 DRL pipeline 是否正确的首选环境。
核心挑战：像素级高维输入，端到端表征学习难度大；对抗型环境，对手有固定策略，需要找到稳定反制模式；得分奖励延迟高，一个回合需要数十步才能分出胜负，信用分配有一定难度。

2. Breakout-v5

环境简介：经典打砖块游戏，屏幕上方排列多行砖块，下方有一块可左右移动的挡板，小球在屏幕内反弹。智能体控制挡板接住小球并反弹，击碎上方的砖块获得分数。小球掉落至屏幕下方则损失一条生命，生命耗尽回合结束。全部击碎所有砖块视为通关。砖块位置固定，需要通过不同反弹角度覆盖所有区域。
推荐入门算法：稀疏奖励长程规划基准，优先 DQN、Rainbow、PPO。
典型调参要点：
- 沿用标准 Atari 预处理，奖励裁剪到 $-1, 1$ ；
- 探索难度大，ε 衰减速度要慢于 Pong，保证能探索到不同反弹角度；
- 加入优先经验回放（PER）可显著提升样本效率，加速通关。
核心挑战：典型稀疏长程奖励场景，只有击碎砖块才有正奖励，需要多步反弹才能得分，信用分配链路长；需要学习 "间接瞄准" 的反直觉策略，通过墙壁反弹击打死角砖块；后期剩余砖块越少，瞄准难度越大，容易出现卡关。

3. SpaceInvaders-v5

环境简介：经典太空射击游戏，玩家控制底部的飞船左右移动并发射子弹，消灭从上方向下移动的外星入侵者。外星人会集体左右移动并逐步下降，同时向玩家发射子弹。击杀外星人获得分数，被敌方子弹击中则损失生命，生命耗尽或外星人触底则回合结束。随着外星人数量减少，移动速度会逐渐加快。
推荐入门算法：多目标动态决策场景，优先 DQN、A2C、PPO。
典型调参要点：
- 标准 Atari 预处理；击杀奖励、失分惩罚数值多样，可保留原始奖励范围，不做严格裁剪；
- 多线程 A2C / PPO 可显著提升训练速度，适合并行验证；
- γ=0.99，学习率 1e-4。
核心挑战：动态多目标决策，同时兼顾 "射击得分" 和 "躲避子弹生存"，动作优先级难以平衡；敌人移动模式随数量减少而变化，环境动态性强，策略需要持续适应；生命数量有限，容错率低，单次失误就可能损失大量进度。

4. MsPacman-v5

环境简介：吃豆人迷宫游戏，玩家控制吃豆人在迷宫中移动，吃掉散布的豆子获得分数。迷宫中有多只幽灵会追踪并追捕吃豆人，被抓到则损失生命。吃下大型能量豆后幽灵会进入虚弱状态，此时吃掉幽灵可获得高额分数。吃完所有豆子则通关进入下一关。迷宫结构固定，幽灵行为带有随机性。
推荐入门算法：探索 + 对抗混合场景，优先 DQN、Rainbow、PPO。
典型调参要点：
- 迷宫探索需求高，ε 衰减更慢，可加入内在好奇心奖励（ICM）增强探索；
- 吃豆奖励密集，但高分需要吃幽灵，风险收益比差异大；
- 训练步数显著多于 Pong，需要更大的经验回放池。
核心挑战：探索与风险的强平衡 ------ 高效吃豆需要深入迷宫，但更容易被幽灵包围；长程路径规划，需要规划最优吃豆路线，同时预留逃生路径；幽灵行为带有随机性，策略必须具备鲁棒性，无法靠固定模式通关。

五、MuJoCo 连续控制环境（v5）

1. InvertedPendulum-v5 / InvertedDoublePendulum-v5

环境简介：在可水平移动的小车上安装一节（单摆）或两节串联（双摆）的倒立摆杆，仅通过控制小车的水平连续作用力来维持续杆竖直。单摆为经典一阶不稳定系统；双摆为两节连杆铰接，非线性和不稳定性显著更强。摆杆倾斜角度超过阈值或小车驶出边界则回合失败，每维持平衡一步获得 + 1 奖励。目标是尽可能长时间保持倒立状态。
推荐入门算法：
- 单摆：DDPG、PPO、SAC（连续控制入门）；
- 双摆：SAC、TD3、PPO（稳定性要求更高）。
典型调参要点：
- 单摆：低维简单系统，2 层 128 单元网络，学习率 3e-4，γ=0.99，很快即可收敛；
- 双摆：非线性显著增强，网络提升至 256 单元，学习率调低至 2e-4，动作裁剪更严格；
- 力矩输出范围有限制，禁止输出过大扭矩。
核心挑战：
- 单摆：强不稳定系统，微小角度偏差就会快速倾倒，对控制精度要求极高；
- 双摆：双节连杆非线性耦合极强，系统混沌性高，初始状态的微小差异会导致结果天差地别；对算法的鲁棒性和值函数拟合精度要求显著提升。

2. Reacher-v5

环境简介：一个具有两个旋转关节的平面机械臂，固定在底座上。每次回合随机生成一个目标点位置，智能体控制两个关节输出连续力矩，驱动机械臂末端尽可能靠近目标点。奖励与末端到目标的距离负相关，距离越近奖励越高。任务核心是学习精准的关节控制与逆运动学映射，适应随机目标位置。
推荐入门算法：机械臂定点控制入门，优先 PPO、DDPG、SAC。
典型调参要点：
- 目标点每次随机生成，训练时必须保证目标多样性，避免策略过拟合单个位置；
- 奖励为末端与目标的距离负相关，可适当缩放奖励梯度；
- 2 自由度系统，网络 2 层 128 单元足够。
核心挑战：精准定位要求高，最终奖励与距离直接挂钩，误差放大效应明显；关节力矩到末端位置的非线性映射，策略学习不直观；目标随机生成，考验策略的泛化能力，而非记忆固定轨迹。

3. HalfCheetah-v5

环境简介：一个 2D 平面的半猎豹机器人，具有躯干和多条腿部关节，共 6 个连续驱动关节。智能体控制各关节力矩，驱动机器人向前奔跑。奖励与前进速度正相关，同时扣除控制能耗。无明确终止条件，在固定步数内尽可能提升奔跑速度。是连续控制领域最常用的算法性能基准环境。
推荐入门算法：连续控制算法性能基准，必选 PPO、SAC、TD3，用于横向对比样本效率与最终性能。
典型调参要点：
- 行业标准配置：17 维状态、6 维动作，网络 2 层 256 单元，γ=0.99，GAE λ=0.95（PPO）；
- PPO 裁剪系数 0.2，学习率 actor/critic 均为 3e-4；
- 奖励为前进速度，数值范围稳定，一般无需额外缩放。
核心挑战：多关节协同步态优化，没有明确子目标，靠持续微调关节力矩提升速度；不同算法的样本效率差异会被显著放大，是算法性能对比的核心基准；系统动力学平滑，但局部最优解很多，容易陷入低效步态。

4. Hopper-v5

环境简介：一个 2D 单腿跳跃机器人，由躯干和一条带关节的腿组成，共 3 个连续驱动关节。智能体控制关节力矩，使机器人依靠单腿连续跳跃向前行进，同时保持身体平衡。身体倾倒或触地则回合终止。奖励与前进速度正相关，核心考验欠驱动系统的动态平衡控制能力。
推荐入门算法：欠驱动平衡基准，优先 PPO、SAC、TD3。
典型调参要点：
- 平衡难度高，PPO 裁剪系数设为 0.2，避免策略更新幅度过大导致摔倒；
- 适当增大熵系数，增强探索，避免过早陷入保守步态；
- γ=0.99，网络 2 层 256 单元。
核心挑战：单腿欠驱动系统，动态平衡难度极大，摔倒即终止，初期有效样本极少；前进与平衡高度耦合，一味加速会失去平衡，过于保守则速度为零；动作容错率极低，关节力矩的微小偏差就会导致姿态失控。

5. Walker2d-v5

环境简介：一个 2D 双足行走机器人，具有左右两腿共 6 个连续驱动关节。智能体协调控制双腿关节力矩，实现稳定的双足向前行走。身体倾倒则回合终止，奖励与前进速度正相关。相比半猎豹，更侧重双足步态的对称性与动态平衡能力。
推荐入门算法：双足行走基准，优先 PPO、SAC、TD3。
典型调参要点：
- 双足协调要求高，网络容量提升至 2 层 256~512 单元；
- GAE λ=0.95，优化长步态的信用分配；
- 学习率调低至 2e-4 ~ 3e-4，保证训练稳定性。
核心挑战：双足步态对称性与协调性要求高，左右腿配合失误就会侧翻；身体姿态稳定与前进速度互相制约，需要多目标平衡；2D 平面内容易前后倾倒，姿态控制维度多。

6. Ant-v5

环境简介：一个 3D 空间的四足蚂蚁机器人，拥有躯干和四条腿，共 8 个连续驱动关节。智能体控制所有腿部关节，在三维空间中实现四足奔跑。身体翻倒则回合终止，奖励与前进速度正相关。状态维度和动作维度均高于 2D 环境，核心考验 3D 空间的姿态平衡与多肢体协同能力。
推荐入门算法：3D 四足控制基准，优先 PPO、SAC、TD3。
典型调参要点：
- 3D 空间状态维度高，网络 2 层 512 单元，保证足够表征能力；
- 四足协同需要更长训练步数，batch size 适当加大；
- 奖励平衡前进速度与姿态能量，避免单一奖励主导。
核心挑战：3D 空间的六自由度姿态平衡，维度远高于 2D 环境；四足肢体耦合复杂，步态协调难度大；状态动作维度显著提升，无模型算法的样本效率明显下降；容易出现 "原地打转""侧翻爬行" 等异常局部最优策略。

7. Humanoid-v5

环境简介：一个 3D 人形机器人，拥有完整的躯干、双臂、双腿结构，共 21 个连续驱动关节。智能体控制全身关节力矩，使人形机器人保持直立并向前行走。摔倒则回合终止，奖励与前进速度、姿态健康度、能量消耗相关。是 MuJoCo 中自由度最高、难度最大的标准基准之一。
推荐入门算法：高维全身控制基准，优先大规模 PPO、SAC；进阶可尝试模型基算法（DreamerV2）。
典型调参要点：
- 极高维状态动作，网络用多层 512 单元，batch size 设为数千级别；
- 学习率调低至 1e-4 ~ 2e-4，策略更新步长更小，保证稳定性；
- 奖励函数包含姿态、速度、能量等多项，需精细调整权重，避免某一项奖励主导。
核心挑战：21 个连续动作自由度、数百维状态，全身协调控制难度呈指数级上升；人体动力学高度非线性，不稳定极强，摔倒即终止；纯无模型算法样本效率极低，需要数百万甚至上千万步交互才能走出有效步态；局部最优极多，大量低效姿态无法被自然淘汰。

8. HumanoidStandup-v5

环境简介：3D 人形机器人初始以平躺姿态躺在地面上，智能体控制全身 21 个关节的力矩，驱动机器人从平躺状态逐步支撑起身，最终完成站立动作。奖励与身体高度、直立程度相关，成功稳定站立即为完成任务。是典型的长程稀疏奖励任务，需要连贯完成躺→撑→坐→站的多阶段动作序列。
推荐入门算法：长程稀疏奖励任务，优先 PPO、SAC；进阶可结合课程学习、分层强化学习。
典型调参要点：
- 原生奖励极度稀疏，建议加入中间姿态奖励塑形，或使用内在奖励增强探索；
- 长序列任务，γ=0.99，GAE λ=0.98，强化远期信用分配；
- 可采用课程学习：先从半坐姿态训练站起，再逐步降低初始姿态高度。
核心挑战：典型长程多阶段任务，每个阶段动作模式完全不同，信用分配极难；初始平躺状态下完全没有正反馈，纯随机探索几乎不可能成功，探索难度属于 MuJoCo 顶级；全身动力协调要求高，起身过程中重心转移的容错率极低。