机器学习——PPO补充

On-policy vs Off-policy

  • 今天跟环境互动,并学习是on-policy

  • 只是在旁边看,就是Off-policy

  • 从p中选q个重要的,需要加一个weight p(x)/q(x)

  • p和q不能相差太多

  • 采样数太少导致分布差很多,导致weight发生变化

On-Policy -> Off-Policy


得到新的loss函数

PPO

  • 衡量 θ \theta θ和 θ ′ \theta' θ′之间的kl散度,衡量二者行为上的相似性,而不是参数上的相似性
  • Adaptive KL Penalty
  • 绿色的线是第一项,蓝色是第二项
相关推荐
Σίσυφος1900几秒前
OpenCV 特征提取 -SUFT
人工智能·opencv·计算机视觉
IT空门:门主1 分钟前
Spring AI Alibaba使用教程
java·人工智能·spring
汗流浃背了吧,老弟!3 分钟前
条件随机场(CRF,Conditional Random Field)
人工智能·深度学习
DS随心转APP8 分钟前
豆包排版乱码怎么办?
人工智能·ai·chatgpt·deepseek·ds随心转
川西胖墩墩14 分钟前
钻井平台设备布局图设计方法
人工智能·架构·流程图
子午18 分钟前
【2026计算机毕设】蔬菜识别系统~Python+深度学习+人工智能+算法模型+TensorFlow
人工智能·python·深度学习
kong790692818 分钟前
Python 调用大模型(LLM)
人工智能·python·大模型llm
丝斯201120 分钟前
AI学习笔记整理(56)——大模型微调
人工智能·笔记·学习
星爷AG I27 分钟前
9-15 视觉注意(AGI基础理论)
人工智能·agi
victory043134 分钟前
medicalgpt模型选型
人工智能