机器学习——PPO补充

On-policy vs Off-policy

  • 今天跟环境互动,并学习是on-policy

  • 只是在旁边看,就是Off-policy

  • 从p中选q个重要的,需要加一个weight p(x)/q(x)

  • p和q不能相差太多

  • 采样数太少导致分布差很多,导致weight发生变化

On-Policy -> Off-Policy


得到新的loss函数

PPO

  • 衡量 θ \theta θ和 θ ′ \theta' θ′之间的kl散度,衡量二者行为上的相似性,而不是参数上的相似性
  • Adaptive KL Penalty
  • 绿色的线是第一项,蓝色是第二项
相关推荐
冬奇Lab13 小时前
一天一个开源项目(第27篇):Awesome AI Coding - 一站式 AI 编程资源导航
人工智能·开源·资讯
A小码哥14 小时前
Claude 今天发布了 Sonnet 4.6, 深度对比:sonnet vs Opus,如何选择最适合你的模型?
大数据·数据库·人工智能
破晓之翼14 小时前
关于AI应用开发需要了解专有名词解释和实际作用
大数据·人工智能
予枫的编程笔记14 小时前
【Docker高级篇】吃透Linux底层:Namespace做隔离,Cgroups控资源,UnionFS搭存储
linux·人工智能·namespace·cgroups·unionfs·linux底层原理·容器核心技术
癫狂的兔子14 小时前
【Python】【机器学习】逻辑回归
python·机器学习·逻辑回归
工业HMI实战笔记14 小时前
工业机器人HMI:协作机器人的人机交互界面
人工智能·ui·性能优化·机器人·自动化·人机交互·交互
智算菩萨14 小时前
Claude Sonnet 4.6:大语言模型架构演进与前沿性能评估
人工智能·ai编程·ai写作
啊阿狸不会拉杆14 小时前
《计算机视觉:模型、学习和推理》第 2 章-概率概述
人工智能·python·学习·算法·机器学习·计算机视觉·ai
deepdata_cn14 小时前
聚类用于人群标签的实操思路
机器学习·数据挖掘·聚类