机器学习——PPO补充

On-policy vs Off-policy

  • 今天跟环境互动,并学习是on-policy

  • 只是在旁边看,就是Off-policy

  • 从p中选q个重要的,需要加一个weight p(x)/q(x)

  • p和q不能相差太多

  • 采样数太少导致分布差很多,导致weight发生变化

On-Policy -> Off-Policy


得到新的loss函数

PPO

  • 衡量 θ \theta θ和 θ ′ \theta' θ′之间的kl散度,衡量二者行为上的相似性,而不是参数上的相似性
  • Adaptive KL Penalty
  • 绿色的线是第一项,蓝色是第二项
相关推荐
Mr.Cheng.几秒前
Knowledge Neurons in Pretrained Transformers
人工智能
Ai财富密码2 分钟前
AI生成大屏可视化:数据智能驱动下的高维洞察与决策中枢
开发语言·人工智能·python·sdd
高洁016 分钟前
基于知识图谱的故障推理方法与算法
人工智能·机器学习·数据挖掘·transformer·知识图谱
薛定猫AI10 分钟前
【一键配置】优雅使用Claude Code:从安装到上手的完整教程
人工智能·arcgis·编辑器·vim
叫我菜菜就好11 分钟前
【AI Agent】什么是AI Agent?如何做一个自己的智能体
人工智能
IT 行者15 分钟前
实战LangChain4j集成MCP Server:让Java AI应用具备工具调用能力
java·开发语言·人工智能
sali-tec19 分钟前
C# 基于OpenCv的视觉工作流-章44-直线卡尺
图像处理·人工智能·opencv·算法·计算机视觉
OidEncoder24 分钟前
绝对值编码器在AGV舵轮上的应用与调试(含硬件对接+故障排查+代码实例)
人工智能·物联网·自动化·智慧城市·信息与通信
BitaHub202426 分钟前
Bitahub算力上新 RTX3080 10G重磅登场
人工智能·bitahub·rtx3080 10g显卡