PPO系列3 - PPO原理

smartcat20102024-12-14 23:42

On Policy:

采集数据的模型，和训练的模型，是同一个。缺点：慢，生成一批样本数据，训练一次，又要重新生成下一批。

Off Policy:

采集数据的模型，和训练的模型，不是同一个。有点：快，生成一批样本数据，可以供训练多次。

例子：

On Policy: 小明上课玩手机，老师批评了小明，小明做了改正不玩手机了。行为是小明产生的，改正也是小明做的，所以是On Policy。

Off Policy: 小明上课玩手机，老师批评了小明，和小明同样喜欢上课玩儿手机的小王，看到小明因为这个被批评后，做了改正不玩手机了。行为是小明产生的，改正是小王做的，所以是Off Policy。

重要性采样

从最开始的x服从p分布，转化到x服从q分布。

把重要性采样，用在GAE强化学习上：

以上就是PPO的梯度。

以下就是PPO的损失函数：

在参考模型上进行采样，并且A里的状态价值V也是用参考模型的。

训练模型和参考模型，不能偏差过大

例子：如果小王是成绩好的学生，那么，差生小明因为考试经常交白卷被老师批评，这件事被小王看到，则对小王影响不大，小王没啥要改正的地方。只有当小王也是差生也有时会交白卷，此事才对小王有警示作用，促其改正。

加约束，有2种方式：

第1个是把KL散度加到loss里。（2个分布完全相等时，KL散度为0；差异越大，KL散度越大）

第2个是加约束，P比值，不能超出一个范围。