机器学习——PPO补充

On-policy vs Off-policy

  • 今天跟环境互动,并学习是on-policy

  • 只是在旁边看,就是Off-policy

  • 从p中选q个重要的,需要加一个weight p(x)/q(x)

  • p和q不能相差太多

  • 采样数太少导致分布差很多,导致weight发生变化

On-Policy -> Off-Policy


得到新的loss函数

PPO

  • 衡量 θ \theta θ和 θ ′ \theta' θ′之间的kl散度,衡量二者行为上的相似性,而不是参数上的相似性
  • Adaptive KL Penalty
  • 绿色的线是第一项,蓝色是第二项
相关推荐
极智视界1 分钟前
目标检测数据集 - 自动驾驶场景驾驶员注意力不集中检测数据集下载
人工智能·目标检测·自动驾驶
亚马逊云开发者4 分钟前
Serverless is all you need: 在亚马逊云科技上一键部署大模型API聚合管理平台OneHub
人工智能
人工智能训练9 分钟前
Docker中Dify镜像由Windows系统迁移到Linux系统的方法
linux·运维·服务器·人工智能·windows·docker·dify
夏洛克信徒9 分钟前
AI盛宴再启:Gemini 3与Nano Banana Pro掀起的产业革命
人工智能·神经网络·自然语言处理
背心2块钱包邮10 分钟前
第24节——手搓一个“ChatGPT”
人工智能·python·深度学习·自然语言处理·transformer
致Great15 分钟前
Chatgpt三周年了:大模型三年发展的里程碑
人工智能·chatgpt·agent
gaetoneai17 分钟前
当OpenAI内部命名乱成“GPT-5.1a-beta-v3-rev2”,Gateone.ai 已为你筑起一道“多模态智能的稳定防线”。
人工智能·语音识别
23遇见18 分钟前
ChatGPT 之后,AI 的下一步突破是什么
人工智能·chatgpt
乐迪信息19 分钟前
乐迪信息:皮带区域安全值守:AI摄像机杜绝煤矿人员闯入
大数据·运维·人工智能·安全·计算机视觉
西西o19 分钟前
SpringAi GA1.0.0入门到源码完整系列课
人工智能·语言模型