机器学习——PPO补充

On-policy vs Off-policy

  • 今天跟环境互动,并学习是on-policy

  • 只是在旁边看,就是Off-policy

  • 从p中选q个重要的,需要加一个weight p(x)/q(x)

  • p和q不能相差太多

  • 采样数太少导致分布差很多,导致weight发生变化

On-Policy -> Off-Policy


得到新的loss函数

PPO

  • 衡量 θ \theta θ和 θ ′ \theta' θ′之间的kl散度,衡量二者行为上的相似性,而不是参数上的相似性
  • Adaptive KL Penalty
  • 绿色的线是第一项,蓝色是第二项
相关推荐
沪漂阿龙几秒前
AI会自己勒索了?
人工智能
Omics Pro1 分钟前
首个针对生物医药LLM智能体的全流程过程级评测框架
数据库·人工智能·windows·redis·量子计算
dayuOK63072 分钟前
2026年AI生图工具实测:Midjourney、可灵、即梦谁更强?
人工智能·ai作画·aigc·音视频·ai写作
xx_xxxxx_3 分钟前
AI的工程基础1-最优化算法
人工智能·机器学习
Elastic 中国社区官方博客4 分钟前
跟踪资金流向:使用 ES|QL 和跨集群搜索追踪洗钱网络
大数据·人工智能·安全·elasticsearch·搜索引擎·金融·全文检索
协享科技4 分钟前
同一个模型,三个平台:OpenRouter - SiliconFlow - DeepInfra 实测对比
人工智能·ai编程·编程人生
papership9 分钟前
【如何做一个简单的skill(举例详细说明)】
人工智能
长葡萄的叶子12 分钟前
什么是RAG?
人工智能
Profile排查笔记15 分钟前
指纹浏览器环境异常排查:Fingerprint、Profile、Proxy、Session 和 Task Log 怎么看
前端·人工智能·后端·自动化
水木流年追梦19 分钟前
agent面试必备31- AI Agent 核心进阶:工具路由(Tool Routing)
数据库·人工智能·oracle·面试·职场和发展·embedding