强化学习笔记6——异同策略、AC、等其他模型总结

、达西先生2025-02-08 8:08

举例QLearning为什么是异策略？

生成动作时e的概率从Q表选，1-e概况随机。更新策略时，贪心策略选择Q_max作为动作。

策略优化两种主要方法：基于梯度下降和基于值函数

Policy Gradient主要缺点：不稳定 （坏策略迭代导致越来越坏），都是on-policy的始终都是一种策略采样和更新效率低。
###########################################################################

Policy Gradient主要优化目标：（笔记5里有讲）

这里对比A3C 改进版的优化目标

############################################################################

AC,A2C,A3C 参考

这里注意Critic网络和Actor网络的更新：

对于Actor网络的策略梯度更新，使用Glearning策略梯度定理根据当前的策略计算更新梯度

对于Critic网络的值函数更新，我们可以使用TD误差来计算当前状态值和下一时刻状态值之间的误差

global network和worker里面都是A2C

worker和环境交互计算梯度不更新，传给globalNet。

globalNet不和环境交互，收集所有worker传来的梯度一起更新，然后将参数copy给worker。