机器学习——PPO补充

On-policy vs Off-policy

  • 今天跟环境互动,并学习是on-policy

  • 只是在旁边看,就是Off-policy

  • 从p中选q个重要的,需要加一个weight p(x)/q(x)

  • p和q不能相差太多

  • 采样数太少导致分布差很多,导致weight发生变化

On-Policy -> Off-Policy


得到新的loss函数

PPO

  • 衡量 θ \theta θ和 θ ′ \theta' θ′之间的kl散度,衡量二者行为上的相似性,而不是参数上的相似性
  • Adaptive KL Penalty
  • 绿色的线是第一项,蓝色是第二项
相关推荐
JHC0000001 小时前
基于Ollama,Milvus构建的建议知识检索系统
人工智能·python·milvus
ZPC82102 小时前
如何创建一个单例类 (Singleton)
开发语言·前端·人工智能
AppOS2 小时前
手把手教你 Openclaw 在 Mac 上本地化部署,保姆级教程!接入飞书打造私人 AI 助手
人工智能·macos·飞书
workflower2 小时前
AI制造-推荐初始步骤
java·开发语言·人工智能·软件工程·制造·需求分析·软件需求
wukangjupingbb2 小时前
解析Computational driven drug discovery: from structure to clinic
人工智能·机器学习
tctasia2 小时前
TCT Asia 2026现场观察:中国增材制造,已经进入“规模化时刻”(上)
大数据·人工智能·制造
AI周红伟2 小时前
AI自动盯盘与定时行情分析:OpenClaw股票辅助Agent集成完整使用指南-周红伟
运维·服务器·人工智能·音视频·火山引擎
Legend NO242 小时前
大模型与知识图谱的协同技术体系
人工智能·自然语言处理·知识图谱
fuquxiaoguang2 小时前
MetaClaw:让AI在对话中悄悄变强,不用GPU也能持续进化
人工智能·metaclaw