强化学习笔记6——异同策略、AC、等其他模型总结

异步两种方法:1:经验回放 2:数据动作非同时产生

举例QLearning为什么是异策略?

生成动作时e的概率从Q表选,1-e概况随机。 更新策略时,贪心策略选择Q_max作为动作。

策略优化两种主要方法:基于梯度下降和基于值函数

Policy Gradient主要缺点:不稳定 (坏策略迭代导致越来越坏),都是on-policy的 始终都是一种策略采样和更新效率低。
###########################################################################

Policy Gradient主要优化目标:(笔记5里有讲)

这里对比A3C 改进版的优化目标

############################################################################

AC,A2C,A3C 参考



这里注意Critic网络和Actor网络的更新:

对于Actor网络的策略梯度更新,使用Glearning策略梯度定理根据当前的策略 计算更新梯度

对于Critic网络的值函数更新,我们可以使用TD误差来计算当前状态值和下一时刻状态值之间的误差

A2C使用优势函数代替Critic网络中的原始回报Gt,可以作为衡量选取动作值和所有动作平均值好坏的指标。

A3C中,有一个全局网络(global network)和多个工作智能体(worker)

global network和worker里面都是A2C

worker和环境交互计算梯度不更新,传给globalNet。

globalNet不和环境交互,收集所有worker传来的梯度一起更新,然后将参数copy给worker。

==

总结:AC更新 actor使用策略梯度下降更新

Critic使用一下6选1都可以更新

相关推荐
瑶光守护者3 天前
【深度学习】自编码器:数据压缩与特征学习的神经网络引擎
人工智能·深度学习·神经网络·学习·机器学习·强化学习
取酒鱼食--【余九】4 天前
rl_sar功能包详解
人工智能·笔记·算法·机器人·强化学习
木亦汐丫5 天前
【TTS】基于GRPO的流匹配文本到语音改进:F5R-TTS
强化学习·tts·grpo·wer·sim·文本到语音·nar
小于小于大橙子6 天前
强化学习的前世今生(五)— SAC算法
人工智能·算法·ai·自动驾驶·概率论·强化学习
预测及优化6 天前
新能源集群划分+电压调节!基于分布式能源集群划分的电压调节策略!
分布式·能源·强化学习·数据驱动·综合能源·集群划分·电压调整
阿丢是丢心心7 天前
【从0到1搞懂大模型】chatGPT 中的对齐优化(RLHF)讲解与实战(9)
chatgpt·微调·强化学习·rlhf
我爱C编程8 天前
基于Qlearning强化学习的二阶弹簧动力学模型PID控制matlab性能仿真
matlab·强化学习·pid控制·qlearning
木亦汐丫9 天前
【ASR】基于分块非自回归模型的流式端到端语音识别
语音识别·asr·端到端·流式·nar非自回归·分块注意力·mask-ctc
-一杯为品-12 天前
【强化学习】#7 基于表格型方法的规划和学习
学习·强化学习
白水baishui12 天前
推荐系统里真的存在“反馈循环”吗?
推荐系统·强化学习·偏差·反馈循环·feedback loop