强化学习笔记6——异同策略、AC、等其他模型总结

异步两种方法:1:经验回放 2:数据动作非同时产生

举例QLearning为什么是异策略?

生成动作时e的概率从Q表选,1-e概况随机。 更新策略时,贪心策略选择Q_max作为动作。

策略优化两种主要方法:基于梯度下降和基于值函数

Policy Gradient主要缺点:不稳定 (坏策略迭代导致越来越坏),都是on-policy的 始终都是一种策略采样和更新效率低。
###########################################################################

Policy Gradient主要优化目标:(笔记5里有讲)

这里对比A3C 改进版的优化目标

############################################################################

AC,A2C,A3C 参考



这里注意Critic网络和Actor网络的更新:

对于Actor网络的策略梯度更新,使用Glearning策略梯度定理根据当前的策略 计算更新梯度

对于Critic网络的值函数更新,我们可以使用TD误差来计算当前状态值和下一时刻状态值之间的误差

A2C使用优势函数代替Critic网络中的原始回报Gt,可以作为衡量选取动作值和所有动作平均值好坏的指标。

A3C中,有一个全局网络(global network)和多个工作智能体(worker)

global network和worker里面都是A2C

worker和环境交互计算梯度不更新,传给globalNet。

globalNet不和环境交互,收集所有worker传来的梯度一起更新,然后将参数copy给worker。

==

总结:AC更新 actor使用策略梯度下降更新

Critic使用一下6选1都可以更新

相关推荐
仙人掌_lz15 小时前
理解多智能体深度确定性策略梯度MADDPG算法:基于python从零实现
python·算法·强化学习·策略梯度·rl
仙人掌_lz2 天前
深入理解深度Q网络DQN:基于python从零实现
python·算法·强化学习·dqn·rl
IT猿手2 天前
基于 Q-learning 的城市场景无人机三维路径规划算法研究,可以自定义地图,提供完整MATLAB代码
深度学习·算法·matlab·无人机·强化学习·qlearning·无人机路径规划
Two summers ago3 天前
arXiv2025 | TTRL: Test-Time Reinforcement Learning
论文阅读·人工智能·机器学习·llm·强化学习
仙人掌_lz4 天前
为特定领域微调嵌入模型:打造专属的自然语言处理利器
人工智能·ai·自然语言处理·embedding·强化学习·rl·bge
碣石潇湘无限路5 天前
【AI】基于生活案例的LLM强化学习(入门帖)
人工智能·经验分享·笔记·生活·openai·强化学习
人类发明了工具6 天前
【强化学习】强化学习算法 - 多臂老虎机问题
机器学习·强化学习·多臂老虎机
我爱C编程7 天前
基于Qlearning强化学习的电梯群控系统高效调度策略matlab仿真
matlab·强化学习·qlearning·电梯群控
Scc_hy13 天前
强化学习_Paper_2017_Curiosity-driven Exploration by Self-supervised Prediction
人工智能·python·深度学习·强化学习
一点.点14 天前
Sce2DriveX: 用于场景-到-驾驶学习的通用 MLLM 框架——论文阅读
论文阅读·大模型·自动驾驶·端到端