机器学习——PPO补充

uncle_ll2024-03-10 14:15

On-policy vs Off-policy

今天跟环境互动，并学习是on-policy
只是在旁边看，就是Off-policy
从p中选q个重要的，需要加一个weight p(x)/q(x)
p和q不能相差太多
采样数太少导致分布差很多，导致weight发生变化

On-Policy -> Off-Policy

得到新的loss函数

PPO

衡量 θ \theta θ和 θ ′ \theta' θ′之间的kl散度，衡量二者行为上的相似性，而不是参数上的相似性

Adaptive KL Penalty

绿色的线是第一项，蓝色是第二项

上一篇：Linux的环境安装以及项目部署

下一篇：美国签证｜附面签相关事项√

热门推荐

01GitHub 镜像站点 02【超详细教程】手把手教你从微软官网免费下载Windows 10官方原版ISO镜像（2025最新版）03智能库存管理的需求预测模型：从业务痛点到落地代码的完整实践 04React CVE-2025-55182漏洞排查与修复指南 05安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）06BongoCat - 跨平台键盘猫动画工具 07UV安装并设置国内源 08打造高效订单处理！ZKmall开源商城的统一履约中心架构解析 09本地部署阿里最新开源的Z-Image 10Linux下V2Ray安装配置指南