机器学习——PPO补充

On-policy vs Off-policy

  • 今天跟环境互动,并学习是on-policy

  • 只是在旁边看,就是Off-policy

  • 从p中选q个重要的,需要加一个weight p(x)/q(x)

  • p和q不能相差太多

  • 采样数太少导致分布差很多,导致weight发生变化

On-Policy -> Off-Policy


得到新的loss函数

PPO

  • 衡量 θ \theta θ和 θ ′ \theta' θ′之间的kl散度,衡量二者行为上的相似性,而不是参数上的相似性
  • Adaptive KL Penalty
  • 绿色的线是第一项,蓝色是第二项
相关推荐
东方佑1 分钟前
轻量级语言模型的精进之路:SamOutVXP2512如何实现规模与性能的双重突破
人工智能·语言模型·自然语言处理
陈天伟教授1 分钟前
人工智能应用-机器视觉:人脸识别(2)
人工智能·机器学习
CC180253944862 分钟前
桌面机器人与AI陪伴产品应用芯片ESP32-S3/ESP32-P4
人工智能·机器人
酌沧2 分钟前
人脑与大模型的本质差异
人工智能
IT_陈寒5 分钟前
Redis 性能翻倍的 5 个冷门技巧,90%开发者都不知道的底层优化!
前端·人工智能·后端
Q8762239655 分钟前
多AGV路径规划是一个复杂的机器人协作问题,传统算法在动态环境下往往难以满足实时性和安全性要求。改进A*和蚁群算法结合AGV动态路径规划
机器学习
AI小怪兽8 分钟前
基于YOLO的小目标检测增强:一种提升精度与效率的新框架
人工智能·深度学习·yolo·目标检测·计算机视觉
quantanexus深算工场10 分钟前
Quantanexus(QN)深算工场AI智能调度平台安装
人工智能·ai·gpu算力·深算工场·gpu管理软件·ai实训教学平台
GIOTTO情11 分钟前
技术深度:Infoseek 舆情监测的多模态架构与二次开发实战,破解 AI 生成式舆情痛点
人工智能·架构
趁你还年轻_11 分钟前
spring Ai Alibaba 和 langChain4j的区别
java·人工智能·spring