机器学习——PPO补充

On-policy vs Off-policy

  • 今天跟环境互动,并学习是on-policy

  • 只是在旁边看,就是Off-policy

  • 从p中选q个重要的,需要加一个weight p(x)/q(x)

  • p和q不能相差太多

  • 采样数太少导致分布差很多,导致weight发生变化

On-Policy -> Off-Policy


得到新的loss函数

PPO

  • 衡量 θ \theta θ和 θ ′ \theta' θ′之间的kl散度,衡量二者行为上的相似性,而不是参数上的相似性
  • Adaptive KL Penalty
  • 绿色的线是第一项,蓝色是第二项
相关推荐
不脱发的程序猿1 分钟前
嵌入式软件工程师,怎么把 AI 工具用顺手?
人工智能·单片机·嵌入式硬件·嵌入式
莞凰5 分钟前
昇腾CANN的“御剑飞行“:ATB仓库探秘
人工智能·flutter·transformer
心中有国也有家17 分钟前
hccl 架构拆解:昇腾集合通信库到底在做什么?
人工智能·经验分享·笔记·分布式·算法·架构
這花開嗎27 分钟前
试了一圈配音网站,说说我的感受
人工智能·语音识别
w_t_y_y30 分钟前
AI应用demo(二)打造个人的code agent
人工智能·语音识别
Raink老师35 分钟前
【AI面试临阵磨枪-60】微服务下 AI 能力如何封装、网关、限流、监控
人工智能·微服务·面试
ApiHug42 分钟前
Mintlify、Stainless & ApiHug 在AI 时代的战略意义
人工智能
九皇叔叔44 分钟前
Spring-Ai-Alibaba [04] 04-llm-platform-custom-demo
java·人工智能·spring
ai生成式引擎优化技术44 分钟前
DLOS Kernel v0.5:从多Agent系统到AI操作系统内核的拐点
人工智能
CHEN5_021 小时前
深入理解 RAG(检索增强生成):核心流程、技术选型与进阶实战
人工智能·rag