强化学习笔记6——异同策略、AC、等其他模型总结

异步两种方法:1:经验回放 2:数据动作非同时产生

举例QLearning为什么是异策略?

生成动作时e的概率从Q表选,1-e概况随机。 更新策略时,贪心策略选择Q_max作为动作。

策略优化两种主要方法:基于梯度下降和基于值函数

Policy Gradient主要缺点:不稳定 (坏策略迭代导致越来越坏),都是on-policy的 始终都是一种策略采样和更新效率低。
###########################################################################

Policy Gradient主要优化目标:(笔记5里有讲)

这里对比A3C 改进版的优化目标

############################################################################

AC,A2C,A3C 参考



这里注意Critic网络和Actor网络的更新:

对于Actor网络的策略梯度更新,使用Glearning策略梯度定理根据当前的策略 计算更新梯度

对于Critic网络的值函数更新,我们可以使用TD误差来计算当前状态值和下一时刻状态值之间的误差

A2C使用优势函数代替Critic网络中的原始回报Gt,可以作为衡量选取动作值和所有动作平均值好坏的指标。

A3C中,有一个全局网络(global network)和多个工作智能体(worker)

global network和worker里面都是A2C

worker和环境交互计算梯度不更新,传给globalNet。

globalNet不和环境交互,收集所有worker传来的梯度一起更新,然后将参数copy给worker。

==

总结:AC更新 actor使用策略梯度下降更新

Critic使用一下6选1都可以更新

相关推荐
Tfly__12 小时前
Ubuntu20.04安装Genesis(最新)
linux·人工智能·pytorch·ubuntu·github·无人机·强化学习
人工智能培训1 天前
10分钟了解向量数据库(3)
人工智能·大模型·知识图谱·强化学习·智能体搭建
具身智能之心1 天前
让机器人“舞得更好”的全身运控的方案还有哪些进化空间?
rl·vla·3dgs·realsim2real
深蓝学院1 天前
完全端到端闭环导航!仅需相机,LoGoPlanner实现感知定位规划一体化
机器人·导航·端到端·具身智能
亚里随笔2 天前
STAgent:专为时空推理设计的智能代理模型
人工智能·深度学习·机器学习·llm·rl·agentic
在西安放羊的牛油果3 天前
原型污染安全漏洞
前端·强化学习
春日见3 天前
强化学习第一讲:强化学习是什么,强化学习分类
开发语言·jvm·人工智能·python·学习·matlab·强化学习
人工智能培训3 天前
强化学习路径规划:技术内核与应用实践
人工智能·大模型·知识图谱·强化学习·智能体搭建
2503_946971863 天前
【AGI/认知计算】2025年度通用人工智能图灵测试与极端环境生存仿真基准数据集(含机械姬/火星救援核心样本)
自动驾驶·知识图谱·强化学习·agi·图灵测试
饮哉4 天前
PPO和GRPO面经
强化学习