PPO系列3 - PPO原理

On Policy:

采集数据的模型,和训练的模型,是同一个。缺点:慢,生成一批样本数据,训练一次,又要重新生成下一批。

Off Policy:

采集数据的模型,和训练的模型,不是同一个。有点:快,生成一批样本数据,可以供训练多次。

例子:

On Policy: 小明上课玩手机,老师批评了小明,小明做了改正不玩手机了。行为是小明产生的,改正也是小明做的,所以是On Policy。

Off Policy: 小明上课玩手机,老师批评了小明,和小明同样喜欢上课玩儿手机的小王,看到小明因为这个被批评后,做了改正不玩手机了。行为是小明产生的,改正是小王做的,所以是Off Policy。

重要性采样

从最开始的x服从p分布,转化到x服从q分布。

把重要性采样,用在GAE强化学习上:

以上就是PPO的梯度。

以下就是PPO的损失函数:

在参考模型上进行采样,并且A里的状态价值V也是用参考模型的。

训练模型和参考模型,不能偏差过大

例子:如果小王是成绩好的学生,那么,差生小明因为考试经常交白卷被老师批评,这件事被小王看到,则对小王影响不大,小王没啥要改正的地方。只有当小王也是差生也有时会交白卷,此事才对小王有警示作用,促其改正。

加约束,有2种方式:

第1个是把KL散度加到loss里。(2个分布完全相等时,KL散度为0;差异越大,KL散度越大)

第2个是加约束,P比值,不能超出一个范围。

相关推荐
星马梦缘1 天前
强化学习实战4——自定义环境的搭建
python·深度学习·机器学习·强化学习·q-learning·baseline3
机器学习之心2 天前
强化学习驱动的光伏功率时间序列预测:LSTM与GRU动态权重组合方法Python
python·gru·lstm·强化学习·动态权重组合方法
星马梦缘2 天前
强化学习实战3——自定义环境的搭建Q-LEARNING
强化学习·dqn·q-learning·baseline3
山顶夕景4 天前
【MLLM】GraphWalker:Deepresearch用于图像生成
大模型·强化学习·图像生成·rl·agentic
机器觉醒时代5 天前
RL Token:破解 VLA “最后一厘米”精度难题,在线强化学习实现机器人精准操控
人工智能·机器人·强化学习·具身智能·vla模型
码农垦荒笔记6 天前
LLM 后训练革命:GRPO、DAPO 与 RLVR 如何替代 RLHF 重塑大模型对齐训练
人工智能·强化学习·grpo·dapo
威化饼的一隅7 天前
【大模型LLM学习】从强化学习到GRPO【下】
大模型·llm·agent·强化学习·智能体·grpo
威化饼的一隅7 天前
【大模型LLM学习】从强化学习到GRPO【上】
大模型·llm·agent·强化学习·智能体·grpo
靴子学长7 天前
GRPO 深度解析 (TRL 源码视角)
大模型·强化学习·算法设计·大模型推理·源码解读
简简单单做算法7 天前
基于Q-Learning强化学习的小车倒立摆平衡控制系统matlab性能仿真
算法·matlab·强化学习·qlearning·小车倒立摆平衡控制