机器人强化学习入门学习笔记（三）

强化学习（Reinforcement Learning, RL）与监督学习不同------你不需要预先准备训练数据集 ，而是要设计环境 、奖励函数 ，让智能体通过交互不断探索和学习。

🎯 一、强化学习和训练数据的关系

强化学习不依赖固定的数据集。它通过以下过程学习：

复制代码

Agent（智能体） ↔️ Environment（环境）

步骤：
1. Agent 发出动作（action）
2. 环境返回下一个状态（state）和奖励（reward）
3. Agent 更新策略（policy）或 Q 值（value function）

👉 所以"训练数据"来自智能体 与环境的交互记录，包括：

状态（State）	动作（Action）	奖励（Reward）	下一状态（Next State）
sₜ	aₜ	rₜ	sₜ₊₁

这些数据可以存储在 replay buffer（经验回放池） 中。

🚀 二、训练强化学习模型的完整流程

以训练一个 MuJoCo 机器人为例：

✅ 1. 搭建仿真环境（如 MuJoCo + dm_control 或 gym）

设置好状态空间（如关节角度、速度）
定义动作空间（如施加的扭矩）
设计奖励函数（鼓励目标行为，例如走得远、站得稳）

✅ 2. 选择强化学习算法

常见算法有：

算法	类型	适合场景
DQN	离散动作	简单游戏、控制任务
PPO（常用）	连续动作	机器人、复杂控制任务
SAC	连续动作	收敛快、表现更好
TD3	连续动作	高稳定性

建议使用：PPO（最稳定）或 SAC（高性能）

✅ 3. 训练智能体

使用工具框架如：

Stable-Baselines3（推荐）
RLlib（可扩展）
CleanRL（轻量易懂）

例子（使用 Stable-Baselines3 训练 PPO）：

复制代码

from stable_baselines3 import PPO
from stable_baselines3.common.env_util import make_vec_env

env = make_vec_env("Humanoid-v3", n_envs=4)  # 多环境并行
model = PPO("MlpPolicy", env, verbose=1)
model.learn(total_timesteps=1_000_000)
model.save("ppo_humanoid")

📦 三、Replay Buffer 是"数据容器"

在 off-policy 方法 （如 DQN、SAC）中，agent 会把每个 (s, a, r, s') 存入经验池中，再抽样训练。
在 on-policy 方法（如 PPO）中，agent 每轮采样最新数据，不重复使用。

📊 四、奖励函数的设计建议

稀疏奖励（sparse reward）难训练 ，尽量提供细粒度奖励。
结合多个因素（如"走路快 + 身体稳定"）用加权和。
奖励平滑、非爆炸。

示例（走路）：

复制代码

reward = 1.0 * velocity_forward - 0.1 * energy_used - 5.0 * is_fallen

🧠 五、训练技巧

项目	建议
并行环境	用 `VecEnv` 加速样本采集
reward shaping	奖励设计更细致、鼓励期望行为
normalize obs / reward	归一化更易于收敛
curriculum learning	从简单任务逐步提升难度
checkpointing	定期保存模型，防止崩掉

🛠 六、可视化训练过程

使用 TensorBoard
使用 Stable-Baselines3 的 logger 自动记录

tensorboard --logdir logs/

✅ 七、模型保存

RL 训练会保存 actor.pt、critic.pt 和 experiment.pkl 这几个文件，以及它们各自的作用。

1. actor.pt

作用：保存了策略网络（Policy Network）的参数。

内容：通常是一个 PyTorch 的神经网络模型（即 policy），它根据观测（observation）输出动作（action）。

用途：在评估、部署或继续训练时，直接加载该文件即可恢复智能体的决策能力。

2. critic.pt

作用：保存了价值网络（Value Network）的参数。

内容：同样是一个 PyTorch 神经网络模型，用于评估当前状态（或状态-动作对）的价值（value）。

用途：在训练时用于计算优势函数（advantage），帮助策略网络更好地学习。评估时有时也会用到。

3. experiment.pkl

作用：保存了实验的超参数、配置和训练参数。

内容：通常是一个 Python 字典，包含训练时用到的所有参数（如学习率、环境名、网络结构、采样步数等）。

用途：方便后续复现实验、评估模型时自动加载一致的参数，或继续训练时恢复原始设置。

4. 为什么要分开保存？

可复现性：分开保存可以让你随时恢复训练、评估或部署，且能追溯训练时的所有细节。

灵活性：你可以只加载 policy（actor）做推理，也可以加载全部继续训练。

兼容性：不同 RL 算法可能只需要其中一部分（如无 critic 的算法只保存 actor）。

5. 示例

复制代码

###Apply to requirements...

path_to_actor = Path(args.path, "actor.pt")

path_to_critic = Path(path_to_actor.parent, "critic" + str(path_to_actor).split('actor')[1])

path_to_pkl = Path(path_to_actor.parent, "experiment.pkl")

# 加载参数

run_args = pickle.load(open(path_to_pkl, "rb"))

policy = torch.load(path_to_actor, weights_only=False)

critic = torch.load(path_to_critic, weights_only=False)

评估时会自动加载这三个文件，确保模型和参数与训练时完全一致。例如 stable-baselines3、RLlib 等主流库也会分别保存 policy、value、config/checkpoint 等文件。总结如下：

actor.pt：保存策略网络（决策用）

critic.pt：保存价值网络（训练用）

experiment.pkl：保存实验参数（复现/继续训练用）

这样设计是为了方便复现、灵活部署和高效管理实验。

✅ 八、小结：训练RL你要准备的是这些

一个环境（可仿真）
状态、动作、奖励函数设计好
选择合适的 RL 算法（如 PPO）
使用 RL 框架训练（如 Stable-Baselines3）
让 agent 不断与环境交互生成数据，而不是喂静态数据集