强化学习笔记(5)——PPO

PPO视频课程来源

首先理解采样期望的转换

变量x在p(x)分布下,函数f(x)的期望 等于f(x)乘以对应出现概率p(x)的累加

经过转换后变成

x在q(x)分布下,f(x)*p(x)/q(x) 的期望。

起因是:求最大化回报的期望,所以对ceta求梯度


具体举例:上述公式计算的流程?如何求一条轨迹的梯度?

我理解就算是概率相乘> 一回合的回报乘以该回合梯度除以该轨迹(s,a,r,s,a...)出现概率
如何求一条轨迹的梯度?

然后PPO 推倒,对数 概率连乘,等于概率累加

但这样有问题:用一整个回合的回报来计算梯度,会导致"未来的动作"影响过去的状态 ,且 优势情况下,惩罚不明显

于是改成:


将优势函数 转换成值函数表示,然后写出多步优势函数即推导出GAE
其实就是用走了不同步的Q(s,a)-V(s) ,然后加权

加负号将最大化期望转成loss函数更新
PPO 使用了一个重要性采样比
这个比值衡量了新策略和旧策略在选择动作 at时的相对概率


为了防止:过去参数ceta' 和 ceta 差距不要太大,有两种衡量方式;
1:KL散度 :这貌似又叫TRPO
2:clip截断防止差的太大

伪代码

用old策略网络做动作和环境交互,然后梯度更新,每过K个epochs将old参数复制给new

相关推荐
十一102423 分钟前
FX10/20 (CYUSB401X)开发笔记5 固件架构
笔记
FakeOccupational1 小时前
【电路笔记 通信】AXI4-Lite协议 FPGA实现 & Valid-Ready Handshake 握手协议
笔记·fpga开发
奶黄小甜包2 小时前
C语言零基础第18讲:自定义类型—结构体
c语言·数据结构·笔记·学习
rannn_1114 小时前
【MySQL学习|黑马笔记|Day7】触发器和锁(全局锁、表级锁、行级锁、)
笔记·后端·学习·mysql
草莓熊Lotso5 小时前
《详解 C++ Date 类的设计与实现:从运算符重载到功能测试》
开发语言·c++·经验分享·笔记·其他
_Kayo_11 小时前
node.js 学习笔记3 HTTP
笔记·学习
星星火柴93615 小时前
关于“双指针法“的总结
数据结构·c++·笔记·学习·算法
Cx330❀17 小时前
【数据结构初阶】--排序(五):计数排序,排序算法复杂度对比和稳定性分析
c语言·数据结构·经验分享·笔记·算法·排序算法
小幽余生不加糖17 小时前
电路方案分析(二十二)适用于音频应用的25-50W反激电源方案
人工智能·笔记·学习·音视频
..过云雨18 小时前
01.【数据结构-C语言】数据结构概念&算法效率(时间复杂度和空间复杂度)
c语言·数据结构·笔记·学习