强化学习笔记(5)——PPO

PPO视频课程来源

首先理解采样期望的转换

变量x在p(x)分布下,函数f(x)的期望 等于f(x)乘以对应出现概率p(x)的累加

经过转换后变成

x在q(x)分布下,f(x)*p(x)/q(x) 的期望。

起因是:求最大化回报的期望,所以对ceta求梯度


具体举例:上述公式计算的流程?如何求一条轨迹的梯度?

我理解就算是概率相乘> 一回合的回报乘以该回合梯度除以该轨迹(s,a,r,s,a...)出现概率
如何求一条轨迹的梯度?

然后PPO 推倒,对数 概率连乘,等于概率累加

但这样有问题:用一整个回合的回报来计算梯度,会导致"未来的动作"影响过去的状态 ,且 优势情况下,惩罚不明显

于是改成:


将优势函数 转换成值函数表示,然后写出多步优势函数即推导出GAE
其实就是用走了不同步的Q(s,a)-V(s) ,然后加权

加负号将最大化期望转成loss函数更新
PPO 使用了一个重要性采样比
这个比值衡量了新策略和旧策略在选择动作 at时的相对概率


为了防止:过去参数ceta' 和 ceta 差距不要太大,有两种衡量方式;
1:KL散度 :这貌似又叫TRPO
2:clip截断防止差的太大

伪代码

用old策略网络做动作和环境交互,然后梯度更新,每过K个epochs将old参数复制给new

相关推荐
ljt272496066125 分钟前
Compose笔记(三十八)--CompositionLocal
笔记·android jetpack
月阳羊7 小时前
【硬件-笔试面试题】硬件/电子工程师,笔试面试题-26,(知识点:硬件电路的调试方法:信号追踪,替换,分段调试)
笔记·嵌入式硬件·面试·职场和发展
Star在努力9 小时前
14-C语言:第14天笔记
c语言·笔记·算法
霜绛10 小时前
机器学习笔记(三)——决策树、随机森林
人工智能·笔记·学习·决策树·随机森林·机器学习
charlie11451419113 小时前
快速入门Socket编程——封装一套便捷的Socket编程——导论
linux·网络·笔记·面试·网络编程·socket
xiaoli232714 小时前
课题学习笔记2——中华心法问答系统
笔记·学习
就改了14 小时前
FastDFS如何提供HTTP访问电子影像文件
笔记
CarmenHu15 小时前
Word2Vec和Doc2Vec学习笔记
笔记·学习·word2vec
门前云梦15 小时前
ollama+open-webui本地部署自己的模型到d盘+两种open-webui部署方式(详细步骤+大量贴图)
前端·经验分享·笔记·语言模型·node.js·github·pip
骁的小小站15 小时前
The Missing Semester of Your CS Education 学习笔记以及一些拓展知识(六)
linux·经验分享·笔记·学习·bash