机器学习——PPO补充

On-policy vs Off-policy

  • 今天跟环境互动,并学习是on-policy

  • 只是在旁边看,就是Off-policy

  • 从p中选q个重要的,需要加一个weight p(x)/q(x)

  • p和q不能相差太多

  • 采样数太少导致分布差很多,导致weight发生变化

On-Policy -> Off-Policy


得到新的loss函数

PPO

  • 衡量 θ \theta θ和 θ ′ \theta' θ′之间的kl散度,衡量二者行为上的相似性,而不是参数上的相似性
  • Adaptive KL Penalty
  • 绿色的线是第一项,蓝色是第二项
相关推荐
向上的车轮1 分钟前
宇树科技 CEO 王兴兴所说的“具身智能时代的牛顿还没诞生”
人工智能·科技
ASKED_20195 分钟前
大模型注意力机制:从数学原理到资源优化框架
人工智能
王解11 分钟前
AI生成PPT的技术演进:从智能填充到认知增强
人工智能·powerpoint
一切尽在,你来11 分钟前
LangGraph 概览
人工智能·python·langchain·ai编程
JQLvopkk2 小时前
能用C#开发AI
开发语言·人工智能·c#
郝学胜-神的一滴3 小时前
当AI遇见架构:Vibe Coding时代的设计模式复兴
开发语言·数据结构·人工智能·算法·设计模式·架构
Clarence Liu9 小时前
用大白话讲解人工智能(4) Softmax回归:AI如何给选项“打分排序“
人工智能·数据挖掘·回归
教男朋友学大模型9 小时前
Agent效果该怎么评估?
大数据·人工智能·经验分享·面试·求职招聘
hit56实验室9 小时前
AI4Science开源汇总
人工智能
CeshirenTester10 小时前
9B 上端侧:多模态实时对话,难点其实在“流”
开发语言·人工智能·python·prompt·测试用例