机器学习——PPO补充

On-policy vs Off-policy

  • 今天跟环境互动,并学习是on-policy

  • 只是在旁边看,就是Off-policy

  • 从p中选q个重要的,需要加一个weight p(x)/q(x)

  • p和q不能相差太多

  • 采样数太少导致分布差很多,导致weight发生变化

On-Policy -> Off-Policy


得到新的loss函数

PPO

  • 衡量 θ \theta θ和 θ ′ \theta' θ′之间的kl散度,衡量二者行为上的相似性,而不是参数上的相似性
  • Adaptive KL Penalty
  • 绿色的线是第一项,蓝色是第二项
相关推荐
LaughingZhu8 小时前
Product Hunt 每日热榜 | 2025-12-10
人工智能·经验分享·深度学习·神经网络·产品运营
老蒋新思维8 小时前
创客匠人 2025 万人峰会核心:AI 驱动知识产品变现革新
大数据·人工智能·网络协议·tcp/ip·创始人ip·创客匠人·知识变现
音沐mu.8 小时前
【34】犬类品种数据集(有v5/v8模型)/YOLO犬类品种检测
人工智能·yolo·目标检测·犬类品种数据集·犬类品种检测
Want5958 小时前
Vibe Coding实战案例:利用Qoder打造个人知识库AI助手,并上线魔搭创空间
人工智能·aigc
多则惑少则明8 小时前
AI测试、大模型测试(七)Java主流大模型框架技术
人工智能·ai测试·ai大模型测试
xinyu_Jina8 小时前
人像精灵 AI 智能相馆:特征解耦与条件生成对抗网络(cGANs)在人像重构中的应用
人工智能·生成对抗网络·重构
木卫二号Coding8 小时前
第五十七篇-ComfyUI+V100-32G+安装SD1.5
人工智能
码农很忙8 小时前
从0到1搭建智能分析OBS埋点数据的AI Agent:实战指南
数据库·人工智能
JoannaJuanCV8 小时前
自动驾驶—CARLA仿真(5)Actors与Blueprints
人工智能·机器学习·自动驾驶