强化学习笔记6——异同策略、AC、等其他模型总结

异步两种方法:1:经验回放 2:数据动作非同时产生

举例QLearning为什么是异策略?

生成动作时e的概率从Q表选,1-e概况随机。 更新策略时,贪心策略选择Q_max作为动作。

策略优化两种主要方法:基于梯度下降和基于值函数

Policy Gradient主要缺点:不稳定 (坏策略迭代导致越来越坏),都是on-policy的 始终都是一种策略采样和更新效率低。
###########################################################################

Policy Gradient主要优化目标:(笔记5里有讲)

这里对比A3C 改进版的优化目标

############################################################################

AC,A2C,A3C 参考



这里注意Critic网络和Actor网络的更新:

对于Actor网络的策略梯度更新,使用Glearning策略梯度定理根据当前的策略 计算更新梯度

对于Critic网络的值函数更新,我们可以使用TD误差来计算当前状态值和下一时刻状态值之间的误差

A2C使用优势函数代替Critic网络中的原始回报Gt,可以作为衡量选取动作值和所有动作平均值好坏的指标。

A3C中,有一个全局网络(global network)和多个工作智能体(worker)

global network和worker里面都是A2C

worker和环境交互计算梯度不更新,传给globalNet。

globalNet不和环境交互,收集所有worker传来的梯度一起更新,然后将参数copy给worker。

==

总结:AC更新 actor使用策略梯度下降更新

Critic使用一下6选1都可以更新

相关推荐
又见阿郎1 天前
聊聊GRPO算法——从Open R1来看如何训练DeepSeek R1模型
ai·强化学习·deepseek·grpo
cxr8284 天前
构建由局部观测、分布式决策与全局奖励协同作用的多智能体强化学习系统
分布式·强化学习·智能体
、达西先生4 天前
强化学习笔记(5)——PPO
笔记·强化学习·ppo
大模型之路6 天前
DeepSeek Janus-Pro:多模态AI模型的突破与创新
llm·强化学习·deepseek·deepseekr1
、达西先生7 天前
强化学习笔记——4策略迭代、值迭代、TD算法
算法·rl·sarsa·q-learning
xidianjiapei0017 天前
DeepSeek-R1 论文解读 —— 强化学习大语言模型新时代来临?
人工智能·搜索引擎·语言模型·强化学习·deepseek-r1
若年封尘10 天前
OpenAI的真正对手?DeepSeek-R1如何用强化学习重构LLM能力边界——DeepSeek-R1论文精读
开源·openai·强化学习·deepseek·deepseek-r1
让我试试哈13 天前
与机器学习相关的概率论重要概念的介绍和说明
人工智能·机器学习·概率论·强化学习
不去幼儿园19 天前
【博客之星】2024年度个人成长、强化学习算法领域总结
人工智能·python·算法·机器学习·强化学习·个人总结