机器学习——PPO补充

On-policy vs Off-policy

  • 今天跟环境互动,并学习是on-policy

  • 只是在旁边看,就是Off-policy

  • 从p中选q个重要的,需要加一个weight p(x)/q(x)

  • p和q不能相差太多

  • 采样数太少导致分布差很多,导致weight发生变化

On-Policy -> Off-Policy


得到新的loss函数

PPO

  • 衡量 θ \theta θ和 θ ′ \theta' θ′之间的kl散度,衡量二者行为上的相似性,而不是参数上的相似性
  • Adaptive KL Penalty
  • 绿色的线是第一项,蓝色是第二项
相关推荐
Godspeed Zhao几秒前
从零开始学AI17——SVM的数学支撑知识
算法·机器学习·支持向量机
机器学习之心几秒前
扩散模型 + Transformer 回归预测:用生成式AI增强小样本回归
人工智能·transformer·扩散模型
JGHAI2 分钟前
2026年GEO技术深度解读:生成式引擎优化的底层逻辑与产业演进
人工智能
土星云SaturnCloud2 分钟前
32TOPS工业级算力+无风扇全密封!土星云SE110S-WA32边缘计算微服务器深度测评
服务器·人工智能·ai·边缘计算
香蕉鼠片3 分钟前
CUDA、PyTorch、Transformers、PEFT 全栈详解
人工智能·pytorch·python
MediaTea3 分钟前
PyTorch:张量与基础计算模块
人工智能·pytorch·python·深度学习·机器学习
浪子sunny3 分钟前
2026股票实时行情数据Skills技能分享
大数据·人工智能·python
吴佳浩4 分钟前
炸裂!一家创业公司声称打破了 Transformer 七年魔咒
人工智能·llm
MediaTea4 分钟前
AI 术语通俗词典:全连接层
人工智能
深度学习lover5 分钟前
<数据集>yolo 电线杆识别<目标检测>
人工智能·python·yolo·目标检测·计算机视觉·电线杆识别