PPO系列3 - PPO原理

On Policy:

采集数据的模型,和训练的模型,是同一个。缺点:慢,生成一批样本数据,训练一次,又要重新生成下一批。

Off Policy:

采集数据的模型,和训练的模型,不是同一个。有点:快,生成一批样本数据,可以供训练多次。

例子:

On Policy: 小明上课玩手机,老师批评了小明,小明做了改正不玩手机了。行为是小明产生的,改正也是小明做的,所以是On Policy。

Off Policy: 小明上课玩手机,老师批评了小明,和小明同样喜欢上课玩儿手机的小王,看到小明因为这个被批评后,做了改正不玩手机了。行为是小明产生的,改正是小王做的,所以是Off Policy。

重要性采样

从最开始的x服从p分布,转化到x服从q分布。

把重要性采样,用在GAE强化学习上:

以上就是PPO的梯度。

以下就是PPO的损失函数:

在参考模型上进行采样,并且A里的状态价值V也是用参考模型的。

训练模型和参考模型,不能偏差过大

例子:如果小王是成绩好的学生,那么,差生小明因为考试经常交白卷被老师批评,这件事被小王看到,则对小王影响不大,小王没啥要改正的地方。只有当小王也是差生也有时会交白卷,此事才对小王有警示作用,促其改正。

加约束,有2种方式:

第1个是把KL散度加到loss里。(2个分布完全相等时,KL散度为0;差异越大,KL散度越大)

第2个是加约束,P比值,不能超出一个范围。

相关推荐
Nicolas8931 小时前
【大模型实战篇】vllm本地部署阿里最新的QwQ-32B推理模型以及体验
大模型·强化学习·千问·r1·推理模型·32b
随机惯性粒子群11 小时前
wheel_legged_genesis 开源项目复现与问题记录
学习·开源·github·强化学习·genesis
山顶夕景10 天前
【LLM】R1复现项目(SimpleRL、OpenR1、LogitRL、TinyZero)持续更新
llm·强化学习·deepseek·r1
一颗小树x10 天前
机器人学习模拟框架 robosuite 支持强化学习和模仿学习 (1) 快速入门
机器人·强化学习·模拟·robosuite·模仿学习
误伤这又何妨19 天前
【动手学强化学习】03马尔可夫决策过程
强化学习
panbaoran91322 天前
【问】强学如何支持 迁移学习呢?
机器学习·迁移学习·强化学习
liuhui2441 个月前
深度强化学习实践 Maxim Lapan 章节6:深度Q-Network
人工智能·深度学习·强化学习·深度强化学习
、达西先生1 个月前
强化学习笔记6——异同策略、AC、等其他模型总结
强化学习·端到端·rl
又见阿郎1 个月前
聊聊GRPO算法——从Open R1来看如何训练DeepSeek R1模型
ai·强化学习·deepseek·grpo
cxr8281 个月前
构建由局部观测、分布式决策与全局奖励协同作用的多智能体强化学习系统
分布式·强化学习·智能体