强化学习笔记6——异同策略、AC、等其他模型总结

异步两种方法:1:经验回放 2:数据动作非同时产生

举例QLearning为什么是异策略?

生成动作时e的概率从Q表选,1-e概况随机。 更新策略时,贪心策略选择Q_max作为动作。

策略优化两种主要方法:基于梯度下降和基于值函数

Policy Gradient主要缺点:不稳定 (坏策略迭代导致越来越坏),都是on-policy的 始终都是一种策略采样和更新效率低。
###########################################################################

Policy Gradient主要优化目标:(笔记5里有讲)

这里对比A3C 改进版的优化目标

############################################################################

AC,A2C,A3C 参考



这里注意Critic网络和Actor网络的更新:

对于Actor网络的策略梯度更新,使用Glearning策略梯度定理根据当前的策略 计算更新梯度

对于Critic网络的值函数更新,我们可以使用TD误差来计算当前状态值和下一时刻状态值之间的误差

A2C使用优势函数代替Critic网络中的原始回报Gt,可以作为衡量选取动作值和所有动作平均值好坏的指标。

A3C中,有一个全局网络(global network)和多个工作智能体(worker)

global network和worker里面都是A2C

worker和环境交互计算梯度不更新,传给globalNet。

globalNet不和环境交互,收集所有worker传来的梯度一起更新,然后将参数copy给worker。

==

总结:AC更新 actor使用策略梯度下降更新

Critic使用一下6选1都可以更新

相关推荐
指掀涛澜天下惊6 天前
AI 基础知识十九 强化学习前言
人工智能·机器学习·强化学习
劈星斩月7 天前
机器学习之 定义与三大范式
人工智能·机器学习·监督学习·强化学习·无监督学习
文艺倾年7 天前
【强化学习】数学推导专题,20W字总结(十五)
人工智能·分布式·大模型·强化学习·vibecoding
盼小辉丶7 天前
PyTorch强化学习实战(14)——优先经验回放机制
pytorch·python·深度学习·强化学习
文艺倾年8 天前
【强化学习】MDP、贝尔曼方程与CartPole 编程,20W字总结(二)
人工智能·软件工程·强化学习
happyprince8 天前
07_verl-Trainer模块详解
人工智能·架构·wpf·强化学习
chen_zn959 天前
RLinf复现RECAP(一):从轨迹回报到优势标签
人工智能·强化学习·具身智能·vla
happyprince9 天前
08_verl-Workers模块详解
人工智能·架构·强化学习
happyprince10 天前
02_verl-代码目录结构详解
人工智能·架构·强化学习
happyprince10 天前
10_verl-Rollout模块详解
人工智能·架构·强化学习