On Policy:
采集数据的模型,和训练的模型,是同一个。缺点:慢,生成一批样本数据,训练一次,又要重新生成下一批。
Off Policy:
采集数据的模型,和训练的模型,不是同一个。有点:快,生成一批样本数据,可以供训练多次。
例子:
On Policy: 小明上课玩手机,老师批评了小明,小明做了改正不玩手机了。行为是小明产生的,改正也是小明做的,所以是On Policy。
Off Policy: 小明上课玩手机,老师批评了小明,和小明同样喜欢上课玩儿手机的小王,看到小明因为这个被批评后,做了改正不玩手机了。行为是小明产生的,改正是小王做的,所以是Off Policy。
重要性采样
从最开始的x服从p分布,转化到x服从q分布。
把重要性采样,用在GAE强化学习上:
以上就是PPO的梯度。
以下就是PPO的损失函数:
在参考模型上进行采样,并且A里的状态价值V也是用参考模型的。
训练模型和参考模型,不能偏差过大
例子:如果小王是成绩好的学生,那么,差生小明因为考试经常交白卷被老师批评,这件事被小王看到,则对小王影响不大,小王没啥要改正的地方。只有当小王也是差生也有时会交白卷,此事才对小王有警示作用,促其改正。
加约束,有2种方式:
第1个是把KL散度加到loss里。(2个分布完全相等时,KL散度为0;差异越大,KL散度越大)
第2个是加约束,P比值,不能超出一个范围。