机器学习——PPO补充

On-policy vs Off-policy

  • 今天跟环境互动,并学习是on-policy

  • 只是在旁边看,就是Off-policy

  • 从p中选q个重要的,需要加一个weight p(x)/q(x)

  • p和q不能相差太多

  • 采样数太少导致分布差很多,导致weight发生变化

On-Policy -> Off-Policy


得到新的loss函数

PPO

  • 衡量 θ \theta θ和 θ ′ \theta' θ′之间的kl散度,衡量二者行为上的相似性,而不是参数上的相似性
  • Adaptive KL Penalty
  • 绿色的线是第一项,蓝色是第二项
相关推荐
AI街潜水的八角几秒前
YOLO26手势识别项目实战1-十种手语实时检测系统数据集说明(含下载链接)
人工智能·深度学习·神经网络·yolo
康康的AI博客几秒前
2026 OpenAI技术全景:GPT-5.2领衔的AI革命与DMXAPI无缝替代方案
人工智能·gpt
PPIO派欧云5 分钟前
PPIO 上线 DeepSeek-OCR-2 ,支持一键私有化部署
人工智能·ocr
tamide40096698916 分钟前
云南专业AIGEO搜索优化,解锁本地流量新密码
人工智能·aigc
2501_9476941819 分钟前
易直聘受邀出席重庆人才研究和人力资源服务协会会员代表大会,赋能企业促就业
大数据·人工智能
传说故事23 分钟前
【论文自动阅读】ActiveVLA: 将主动感知注入VLA模型以实现精准三维机器人操控
人工智能·深度学习·机器人·具身智能·vla
十六年开源服务商24 分钟前
AI客服系统WordPress集成指南
人工智能
小袁进化之路25 分钟前
黎跃春讲 AI 智能体运营工程师:从工程架构到可运营系统的完整实战详解
大数据·人工智能·架构
一只大侠的侠28 分钟前
DNN深度神经网络实战
人工智能·神经网络·dnn
博士僧小星31 分钟前
人工智能|大模型——应用——详解ClawdBot(Moltbot)
人工智能·大模型·agent·智能体·ai助理·clawdbot·moltbot