rsl_rl框架学习

actor-critic 和A-C recurrent的区别

  • recurrent版本的内部维护了LSTM/GRU网络,A-C 内部是MLP/CNN
  • A-C只看当前的observation,A-C- R使用的是历史隐藏状态(带有记忆)
  • A-C 不需要hidden state(LSTM内部存储的记忆状态),但是A-C-R需要
  • A-C不能建模时间信息,A-C-R可以建模时间信息
  • A-C-R对于长时间的任务表现更好,适用于障碍物规避等任务,简单的locomotion任务A-C就可以完成
  • A-C-R训练复杂度更高

Actor-Critic

  • 其中的actor负责学习策略,提供动作分布,critic负责评估状态价值,提供学习信号

完整的运行流程

  • 初始化阶段

    • 创建ACTOR网络的MLP
    • 创建critic网络的MLP
    • 初始化观察归一化器:初始归一化器作用是用来归一化观测值的不同尺度
    • 初始化动作噪声的参数mean, std:作用是action ~ Normal(mean, std)
  • 经验的收集阶段

    • 对于每个环境步骤
      • 获取状态观测obs
      • actor网络: obs → 动作分布 → 采样动作 a
      • 环境执行动作 a → 新观察obs ' ,并获得奖励r
      • critic网络: 通过obs获取价值估计V(s)
      • 存储(obs, a, r , V(s), log_prob(a|s))
      • 其中的 log_prob(a|s)反应的物理意义是:策略执行动作 a 的"自信程度",或者说这个动作的"自然性/合理性"。
  • 策略更新阶段(PPO更新)

  • 对于每一个epoch

    • 对于每一个mini-batch
      • Actor网络:重新计算动作概率πθ(a|s),用当前新参数 \theta 重新计算旧动作a 的log_prob。 从而比较新策略和旧策略之间的差异,方便计算ratio

      • 计算重要性采样比率ratio:作用是衡量新策略和旧策略之间的偏离程度,这一步可以告诉我们新策略相比于之前的策略变强了多少,偏离是多少

        -

      • 计算裁剪之后的策略损失(PPO clip):作用是防止策略更新的太快,导致崩掉。也就是即使此时的优势A很大,也不允许策略一步变化太多。

        -

      • Critic重新评估价值V(s) :作用是用当前的critic_θ重新预测每个状态的价值

      • 计算价值损失函数:作用是让critic能够对未来价值估计更准确,稳定advantage计算

      • 计算熵奖励:作用是增加策略的随机性,从而避免过早的收敛到错误的策略,熵的值对应的是PPO损失的一部分,所以熵过小会导致PPO损失过大,所以会保持继续探索

        -

      • 更新网络参数:作用是对Actor和Critic进行梯度下降,根据PPO的目标函数更新神经网络

      • 更新观察归一化器:作用是更新obs的mean/std,用于下一次迭代对新的obs做标准化

一些训练过程中量的计算方法与作用

  • advantage物理意义

相关推荐
upper202011 小时前
【炒股学习】集合竞价
学习·区块链
以孝治家行动11 小时前
线上共读传孝道 身体力行润家风——以孝治家家教中心开展线上学习
学习
小智RE0-走在路上13 小时前
Python学习笔记(8) --函数的多返回值,不同传参,匿名函数
笔记·python·学习
charlie11451419114 小时前
现代C++嵌入式教程:C++98基础特性:从C到C++的演进(1)
c语言·开发语言·c++·笔记·学习·教程
喜欢吃豆14 小时前
我把 LLM 技术栈做成了一张“可复用的认知地图”:notes-on-llms 开源仓库介绍
学习·语言模型·架构·开源·大模型·多模态
学烹饪的小胡桃15 小时前
【运维学习】实时性能监控工具 WGCLOUD v3.6.2 更新介绍
linux·运维·服务器·学习·工单系统
nnsix15 小时前
QFramework学习笔记
笔记·学习
我想我不够好。15 小时前
电工实操 电路的接线和理解以及练习 12.21
学习
ys~~15 小时前
git学习
git·vscode·python·深度学习·学习·nlp·github
知识分享小能手15 小时前
Ubuntu入门学习教程,从入门到精通,Ubuntu 22.04的桌面环境 (4)
linux·学习·ubuntu