机器学习——PPO补充

On-policy vs Off-policy

  • 今天跟环境互动,并学习是on-policy

  • 只是在旁边看,就是Off-policy

  • 从p中选q个重要的,需要加一个weight p(x)/q(x)

  • p和q不能相差太多

  • 采样数太少导致分布差很多,导致weight发生变化

On-Policy -> Off-Policy


得到新的loss函数

PPO

  • 衡量 θ \theta θ和 θ ′ \theta' θ′之间的kl散度,衡量二者行为上的相似性,而不是参数上的相似性
  • Adaptive KL Penalty
  • 绿色的线是第一项,蓝色是第二项
相关推荐
柯儿的天空几秒前
2026年AI技术突破与产业落地全景:从GPT-5到多模态智能体的新纪元
人工智能·gpt·microsoft·开源·aigc·ai编程·ai写作
人工智能AI技术2 分钟前
GitHub Trending榜首:Python Agentic RAG企业级落地指南
人工智能·python
柯儿的天空4 分钟前
边缘计算与AI部署优化技术分析:从云端到边缘的智能化演进
人工智能·gpt·aigc·边缘计算·ai编程·ai写作·agi
chushiyunen4 分钟前
大模型.safetensors文件
人工智能·pytorch·深度学习
带娃的IT创业者4 分钟前
信号链双路径陷阱:新增 Signal 路径后 AI 回复重复的根因与修复
人工智能
光羽隹衡5 分钟前
计算机视觉——Opencv(人脸检测)
人工智能·opencv·计算机视觉
IT_陈寒7 分钟前
SpringBoot 项目启动慢?5 个提速技巧让你的应用快如闪电 ⚡️
前端·人工智能·后端
币之互联万物7 分钟前
好用的推理训练引擎:博云AIOS如何重塑企业AI算力底座
大数据·人工智能
视***间9 分钟前
算力下沉,智赋全域——解析当前AI边缘计算形势及视程空间的使命与征程
人工智能·边缘计算·ai算力·视程空间·终端算力
IT_陈寒10 分钟前
SpringBoot自动配置的坑,我把头发都快薅没了
前端·人工智能·后端