机器学习——PPO补充

On-policy vs Off-policy

  • 今天跟环境互动,并学习是on-policy

  • 只是在旁边看,就是Off-policy

  • 从p中选q个重要的,需要加一个weight p(x)/q(x)

  • p和q不能相差太多

  • 采样数太少导致分布差很多,导致weight发生变化

On-Policy -> Off-Policy


得到新的loss函数

PPO

  • 衡量 θ \theta θ和 θ ′ \theta' θ′之间的kl散度,衡量二者行为上的相似性,而不是参数上的相似性
  • Adaptive KL Penalty
  • 绿色的线是第一项,蓝色是第二项
相关推荐
WHS-_-2022几秒前
Millimeter Wave ISAC-SLAM: Framework and RFSoC Prototype
人工智能·算法·原型模式
几司3 分钟前
OpenISP 模块拆解 · 第12讲:双边滤波降噪 (BNF)
人工智能·计算机视觉·isp
云栖梦泽在4 分钟前
AI安全实战:AI模型投毒攻击的检测与修复实战
大数据·人工智能·安全
大模型推理5 分钟前
《从 0 实现 SGLang》第 2 篇 · 核心数据结构: Req 与 SamplingParams
人工智能
AskHarries6 分钟前
OpenClaw 是什么?为什么它不是普通 AI Agent
人工智能·后端·程序员
sali-tec8 分钟前
C# 基于OpenCv的视觉工作流-章75-线-线角度
图像处理·人工智能·opencv·算法·计算机视觉
AskHarries8 分钟前
如何判断一个需求是真需求
人工智能·程序员·产品
ccice0111 分钟前
硬核教程:用Gemini编排多任务办公智能体,实现周报、数据表与行程单全自动生成(国内免费镜像方案)
人工智能·自动化
liux352813 分钟前
第2章:核心功能篇 —— 记忆系统,让 AI 越用越懂你
人工智能·hermes
随身数智备忘录14 分钟前
安全生产法详解:安全生产法如何规范企业安全管理行为?
大数据·人工智能