VPG算法

VPG算法

前言

首先来看经典的策略梯度REINFORCE算法:

在REINFORCE中,每次采集一个episode的轨迹,计算每一步动作的回报 G t G_t Gt,与动作概率对数相乘,作为误差反向传播,有以下几个特点:

  • 每个时间步更新一次参数
  • 只有策略网络,没有价值网络
  • 计算 G G G时,仅仅采样了一条轨迹
  • 一般来说,计算 G G G时,从最后的时间步开始往前计算,这是为了节省计算量
  • G G G实际上类似于 Q Q Q函数,因为 Q Q Q函数就是动作价值回报的期望

VPG算法

全称:Vanilla Policy Gradient,但是属于Actor-Critic算法,因为它既有策略网络,又有价值网络

  • 每个episode更新一次参数
  • 上述伪代码中,计算 G G G时,采样了多个轨迹
  • 一般来说,计算 G G G时,从最后的时间步开始往前计算,这是为了节省计算量
  • Reward-to-go:即折扣因子 γ = 1 \gamma=1 γ=1, G t = R ^ t = r t + r t + 1 + ... + r T G_t=\hat{R}t=r_t+r{t+1}+\ldots+r_T Gt=R^t=rt+rt+1+...+rT, T T T为episode的长度
  • 通常为 A ^ t \hat{A}_t A^t引入baseline,以减小方差,提升训练稳定性

A ^ t = R ^ t − V ϕ k \hat{A}_t=\hat{R}t-V{\phi_k} A^t=R^t−Vϕk

比较

/ REINFORCE VPG
价值网络
参数更新 每个时间步 每个episode
回报 有折扣 无折扣
采样轨迹 一条 多条
baseline
相关推荐
我不是小upper18 小时前
AReaL-boba²:首个全异步强化学习训练系统它来了!!
人工智能·强化学习
panbaoran91321 小时前
【一】零基础--分层强化学习概览
强化学习·hrl
AI速译官2 天前
Confidence Is All You Need
强化学习
汤姆和佩琦6 天前
LLMs基础学习(八)强化学习专题(1)
深度学习·学习·强化学习·马尔可夫决策过程
白水baishui7 天前
搭建强化推荐的决策服务架构
架构·推荐系统·强化学习·决策服务·服务架构
Ai多利8 天前
能上Nature封面的idea!强化学习+卡尔曼滤波
强化学习·卡尔曼滤波
我就是全世界9 天前
AReaL-boba²:开源异步强化学习训练系统的革命性突破
开源·强化学习
瑶光守护者13 天前
【深度学习】自编码器:数据压缩与特征学习的神经网络引擎
人工智能·深度学习·神经网络·学习·机器学习·强化学习
取酒鱼食--【余九】14 天前
rl_sar功能包详解
人工智能·笔记·算法·机器人·强化学习
木亦汐丫15 天前
【TTS】基于GRPO的流匹配文本到语音改进:F5R-TTS
强化学习·tts·grpo·wer·sim·文本到语音·nar