机器学习——PPO补充

On-policy vs Off-policy

  • 今天跟环境互动,并学习是on-policy

  • 只是在旁边看,就是Off-policy

  • 从p中选q个重要的,需要加一个weight p(x)/q(x)

  • p和q不能相差太多

  • 采样数太少导致分布差很多,导致weight发生变化

On-Policy -> Off-Policy


得到新的loss函数

PPO

  • 衡量 θ \theta θ和 θ ′ \theta' θ′之间的kl散度,衡量二者行为上的相似性,而不是参数上的相似性
  • Adaptive KL Penalty
  • 绿色的线是第一项,蓝色是第二项
相关推荐
墨染天姬3 分钟前
【AI】自媒体时代-零帧起号
人工智能·媒体
A尘埃4 分钟前
数值特征标准化StandardScaler和类别不平衡SMOTE
人工智能·深度学习·机器学习
人工智能AI技术4 分钟前
【Agent从入门到实践】44 监控与日志:添加监控指标、日志记录,方便问题排查
人工智能·python
来两个炸鸡腿9 分钟前
【Datawhale组队学习202601】Base-NLP task06 大模型训练与量化
人工智能·学习·自然语言处理
bylander10 分钟前
【AI学习】TM Forum自智网络L4级标准体系
人工智能·学习·智能体·自动驾驶网络
高洁0111 分钟前
知识图谱如何在制造业实际落地应用
深度学习·算法·机器学习·数据挖掘·知识图谱
世优科技虚拟人11 分钟前
从AI数字人讲解到MR数字人导览,数字人厂商革新文旅新服务
人工智能·大模型·数字人·智能交互
张小凡vip20 分钟前
数据挖掘(七) ---Jupyter Notebook快捷方式和魔术命令(特殊命令)
人工智能·jupyter·数据挖掘
Luhui Dev22 分钟前
MCP、Skills、Agents SDK 什么区别?AI 能力调度接口的 3 种范式解析
人工智能
才兄说29 分钟前
机器人租售出场稳?到点就上台
人工智能·机器人