机器学习——PPO补充

On-policy vs Off-policy

  • 今天跟环境互动,并学习是on-policy

  • 只是在旁边看,就是Off-policy

  • 从p中选q个重要的,需要加一个weight p(x)/q(x)

  • p和q不能相差太多

  • 采样数太少导致分布差很多,导致weight发生变化

On-Policy -> Off-Policy


得到新的loss函数

PPO

  • 衡量 θ \theta θ和 θ ′ \theta' θ′之间的kl散度,衡量二者行为上的相似性,而不是参数上的相似性
  • Adaptive KL Penalty
  • 绿色的线是第一项,蓝色是第二项
相关推荐
沫儿笙10 分钟前
川崎焊接机器人弧焊气体节约
人工智能·机器人
新知图书10 分钟前
多模态大模型的应用场景
人工智能·大模型应用开发·大模型应用
Giser探索家15 分钟前
遥感卫星升轨 / 降轨技术解析:对图像光照、对比度的影响及工程化应用
大数据·人工智能·算法·安全·计算机视觉·分类
Mr数据杨25 分钟前
【ComfyUI】Animate单人物角色视频替换
人工智能·计算机视觉·音视频
lisw0529 分钟前
AI眼镜:作为人机交互新范式的感知延伸与智能融合终端
人工智能·人机交互·软件工程
bestcxx34 分钟前
0.2、AI Agent 开发中 ReAct 和 MAS 的概念
人工智能·python·dify·ai agent
Q一件事42 分钟前
arcgis重采样插值方法的选择
人工智能·arcgis
Xxtaoaooo1 小时前
Sora文生视频技术拆解:Diffusion Transformer架构与时空建模原理
人工智能·架构·音视频·transformer·sora
lisw051 小时前
数字化科技简化移民流程的 5 种方式
大数据·人工智能·机器学习
空白到白1 小时前
Transformer-解码器_编码器部分
人工智能·深度学习·transformer