机器学习——PPO补充

On-policy vs Off-policy

  • 今天跟环境互动,并学习是on-policy

  • 只是在旁边看,就是Off-policy

  • 从p中选q个重要的,需要加一个weight p(x)/q(x)

  • p和q不能相差太多

  • 采样数太少导致分布差很多,导致weight发生变化

On-Policy -> Off-Policy


得到新的loss函数

PPO

  • 衡量 θ \theta θ和 θ ′ \theta' θ′之间的kl散度,衡量二者行为上的相似性,而不是参数上的相似性
  • Adaptive KL Penalty
  • 绿色的线是第一项,蓝色是第二项
相关推荐
Yngz_Miao16 分钟前
【深度学习】交叉熵损失函数Cross-Entropy Loss
人工智能·深度学习·损失函数·交叉熵·ce
chenzhiyuan201817 分钟前
BL450实测:YOLOv8在产线端能跑多快?
人工智能
一休哥助手19 分钟前
2026年1月22日人工智能早间新闻
人工智能
良策金宝AI20 分钟前
工程设计企业AI试用落地路径:从效率验证到知识沉淀
数据库·人工智能·知识图谱·ai助手·工程设计
奔袭的算法工程师36 分钟前
CRN源码详细解析(4)-- 图像骨干网络之DepthNet和ViewAggregation
人工智能·pytorch·深度学习·目标检测·自动驾驶
cjqbg1 小时前
灵芽API:企业级大模型API聚合网关架构解析与成本效益对比
人工智能·架构·aigc·ai编程
人工智能培训1 小时前
数字孪生应用于特种设备领域的技术难点
人工智能·机器学习·语言模型·数字孪生·大模型幻觉·数字孪生应用
慧一居士1 小时前
OpenAI 和OpenApi 区别对比和关系
人工智能
资讯雷达1 小时前
2026 年,GEO 优化如何选?风信子传媒:以“内容生态+智能分发”重塑品牌 AI 认知
大数据·人工智能·传媒
张祥6422889041 小时前
误差理论与测量平差基础笔记七
线性代数·机器学习·numpy