机器学习——PPO补充

On-policy vs Off-policy

  • 今天跟环境互动,并学习是on-policy

  • 只是在旁边看,就是Off-policy

  • 从p中选q个重要的,需要加一个weight p(x)/q(x)

  • p和q不能相差太多

  • 采样数太少导致分布差很多,导致weight发生变化

On-Policy -> Off-Policy


得到新的loss函数

PPO

  • 衡量 θ \theta θ和 θ ′ \theta' θ′之间的kl散度,衡量二者行为上的相似性,而不是参数上的相似性
  • Adaptive KL Penalty
  • 绿色的线是第一项,蓝色是第二项
相关推荐
云栖梦泽在1 分钟前
AI安全实战:AI系统应急响应的实战演练案例
大数据·人工智能·安全
wanzehongsheng2 分钟前
户外追日光伏技术对比:双轴太阳花与三轴智能太阳花场景适配分析
人工智能·能源·光伏·光伏支架·光伏太阳花
北辰alk14 分钟前
AI Agent 记忆系统架构设计:OpenClaw、Claude Code、Hermes Agent 深度对比
人工智能
忆~遂愿16 分钟前
《大模型驱动软件测试》| 软件工程3.0时代,大模型驱动测试实战指南
人工智能·深度学习·神经网络·机器学习·自然语言处理·软件工程·知识图谱
无忧智库35 分钟前
电力行业集团数字化转型信息化战略规划方案(PPT)
大数据·人工智能
人月神话-Lee36 分钟前
【图像处理】图像导出与工业级压缩策略——从像素到文件的最后一公里
图像处理·人工智能·ios·ai编程·swift
java1234_小锋1 小时前
在 Spring AI 中如何实现函数调用(Function Calling)?请说明其基本原理和应用场景。
java·人工智能·spring
learn_for_real1 小时前
2026 如何正确向 AI 提问?一套稳定可复用的五步提问法
人工智能
GISer_Jing1 小时前
AI数字营销全链路自动化闭环_CSDN
运维·人工智能·自动化