机器学习——PPO补充

On-policy vs Off-policy

  • 今天跟环境互动,并学习是on-policy

  • 只是在旁边看,就是Off-policy

  • 从p中选q个重要的,需要加一个weight p(x)/q(x)

  • p和q不能相差太多

  • 采样数太少导致分布差很多,导致weight发生变化

On-Policy -> Off-Policy


得到新的loss函数

PPO

  • 衡量 θ \theta θ和 θ ′ \theta' θ′之间的kl散度,衡量二者行为上的相似性,而不是参数上的相似性
  • Adaptive KL Penalty
  • 绿色的线是第一项,蓝色是第二项
相关推荐
NAGNIP4 小时前
轻松搞懂全连接神经网络结构!
人工智能·算法·面试
moshuying5 小时前
别让AI焦虑,偷走你本该有的底气
前端·人工智能
董董灿是个攻城狮6 小时前
零基础带你用 AI 搞定命令行
人工智能
喝拿铁写前端8 小时前
Dify 构建 FE 工作流:前端团队可复用 AI 工作流实战
前端·人工智能
阿里云大数据AI技术9 小时前
阿里云 EMR Serverless Spark + DataWorks 技术实践:引领企业 Data+AI 一体化转型
人工智能
billhan20169 小时前
MCP 深入理解:协议原理与自定义开发
人工智能
Jahzo9 小时前
openclaw桌面端体验--ClawX
人工智能·github
billhan20169 小时前
Agent 开发全流程:从概念到生产
人工智能
threerocks9 小时前
过了个年,AI 圈变天了?但没人告诉你为什么
人工智能