机器学习——PPO补充

On-policy vs Off-policy

  • 今天跟环境互动,并学习是on-policy

  • 只是在旁边看,就是Off-policy

  • 从p中选q个重要的,需要加一个weight p(x)/q(x)

  • p和q不能相差太多

  • 采样数太少导致分布差很多,导致weight发生变化

On-Policy -> Off-Policy


得到新的loss函数

PPO

  • 衡量 θ \theta θ和 θ ′ \theta' θ′之间的kl散度,衡量二者行为上的相似性,而不是参数上的相似性
  • Adaptive KL Penalty
  • 绿色的线是第一项,蓝色是第二项
相关推荐
圣殿骑士-Khtangc5 分钟前
智谱AI完成5亿美元融资 + AutoGLM 2.0发布:对标GPT-5 Agent Mode
人工智能
LLM落地研习社7 分钟前
一行命令部署 NIM:Docker 容器化生产级最佳实践
人工智能
十有八七14 分钟前
🧩 组件库死亡倒计时?—— AI 编码冲击下的前端基础设施重构
前端·人工智能
bryant_meng15 分钟前
【Hugging Face】The GitHub of Open-Source AI Models
人工智能·github·qwen·hugging face·clip
有味道的男人16 分钟前
从采集到铺货:AI 对接京东数据完整落地流程
人工智能
风止何安啊22 分钟前
我一个前端仔,居然用 Python 搞起了 AI?从零到一,撸了个 AI 聊天框小 demo
前端·人工智能·后端
装不满的克莱因瓶24 分钟前
图像尺寸调整:缩放矩阵如何改变像素坐标?
人工智能·线性代数·数学·算法·机器学习·矩阵
GlobalInfo24 分钟前
八旋翼无人机产业洞察与市场占有率演变:2026年趋势分析报告
人工智能·无人机
GISer_Jing25 分钟前
Claude Code插件系统全解析
前端·人工智能·ai·架构
AI前沿资讯28 分钟前
2026年AI 3D赛道新势力崛起:一体化创作平台成主流,V2Fun凭全流程能力突围
人工智能·3d