强化学习笔记（5）——PPO

、达西先生2025-02-04 8:01

PPO视频课程来源

首先理解采样期望的转换

变量x在p(x)分布下，函数f(x)的期望等于f(x)乘以对应出现概率p(x)的累加

经过转换后变成

x在q(x)分布下，f(x)*p(x)/q(x) 的期望。

起因是：求最大化回报的期望，所以对ceta求梯度

具体举例：上述公式计算的流程？如何求一条轨迹的梯度？

我理解就算是概率相乘> 一回合的回报乘以该回合梯度除以该轨迹（s,a,r,s,a...）出现概率
如何求一条轨迹的梯度？

然后PPO 推倒，对数概率连乘，等于概率累加

但这样有问题：用一整个回合的回报来计算梯度，会导致"未来的动作"影响过去的状态 ，且优势情况下，惩罚不明显

于是改成：

将优势函数转换成值函数表示，然后写出多步优势函数即推导出GAE
其实就是用走了不同步的Q（s,a）-V(s) ,然后加权

加负号将最大化期望转成loss函数更新
PPO 使用了一个重要性采样比
这个比值衡量了新策略和旧策略在选择动作 at时的相对概率

为了防止：过去参数ceta' 和 ceta 差距不要太大，有两种衡量方式；
1：KL散度：这貌似又叫TRPO
2：clip截断防止差的太大

伪代码

用old策略网络做动作和环境交互，然后梯度更新，每过K个epochs将old参数复制给new