VPG算法

红烧code2023-09-04 8:39

VPG算法

前言

首先来看经典的策略梯度REINFORCE算法：

在REINFORCE中，每次采集一个episode的轨迹，计算每一步动作的回报 G t G_t Gt，与动作概率对数相乘，作为误差反向传播，有以下几个特点：

每个时间步更新一次参数
只有策略网络，没有价值网络
计算 G G G时，仅仅采样了一条轨迹
一般来说，计算 G G G时，从最后的时间步开始往前计算，这是为了节省计算量
G G G实际上类似于 Q Q Q函数，因为 Q Q Q函数就是动作价值回报的期望

VPG算法

全称：Vanilla Policy Gradient，但是属于Actor-Critic算法，因为它既有策略网络，又有价值网络

每个episode更新一次参数
上述伪代码中，计算 G G G时，采样了多个轨迹
一般来说，计算 G G G时，从最后的时间步开始往前计算，这是为了节省计算量
Reward-to-go：即折扣因子 γ = 1 \gamma=1 γ=1， G t = R ^ t = r t + r t + 1 + ... + r T G_t=\hat{R}t=r_t+r{t+1}+\ldots+r_T Gt=R^t=rt+rt+1+...+rT， T T T为episode的长度
通常为 A ^ t \hat{A}_t A^t引入baseline，以减小方差，提升训练稳定性

A ^ t = R ^ t − V ϕ k \hat{A}_t=\hat{R}t-V{\phi_k} A^t=R^t−Vϕk

比较

/	REINFORCE	VPG
价值网络	无	有
参数更新	每个时间步	每个episode
回报	有折扣	无折扣
采样轨迹	一条	多条
baseline	无	有

上一篇：使用nginx-lua配置统一url自动跳转到hadoop-ha集群的active节点

下一篇：完美解决 WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!

热门推荐

01BongoCat - 跨平台键盘猫动画工具 02GitHub 镜像站点 03两千字总结：Codex 国内如何安装和使用的教程，以及如何设置中文回答 04UV安装并设置国内源 05Linux下V2Ray安装配置指南 06GitLab 零基础入门指南：从安装到项目管理全流程 07在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）0846个Nano-banana 精选提示词，持续更新中 09windows找不到gpedit.msc（本地组策略编辑器）10UV 工具安装与国内镜像源配置指南