强化学习笔记6——异同策略、AC、等其他模型总结

异步两种方法:1:经验回放 2:数据动作非同时产生

举例QLearning为什么是异策略?

生成动作时e的概率从Q表选,1-e概况随机。 更新策略时,贪心策略选择Q_max作为动作。

策略优化两种主要方法:基于梯度下降和基于值函数

Policy Gradient主要缺点:不稳定 (坏策略迭代导致越来越坏),都是on-policy的 始终都是一种策略采样和更新效率低。
###########################################################################

Policy Gradient主要优化目标:(笔记5里有讲)

这里对比A3C 改进版的优化目标

############################################################################

AC,A2C,A3C 参考



这里注意Critic网络和Actor网络的更新:

对于Actor网络的策略梯度更新,使用Glearning策略梯度定理根据当前的策略 计算更新梯度

对于Critic网络的值函数更新,我们可以使用TD误差来计算当前状态值和下一时刻状态值之间的误差

A2C使用优势函数代替Critic网络中的原始回报Gt,可以作为衡量选取动作值和所有动作平均值好坏的指标。

A3C中,有一个全局网络(global network)和多个工作智能体(worker)

global network和worker里面都是A2C

worker和环境交互计算梯度不更新,传给globalNet。

globalNet不和环境交互,收集所有worker传来的梯度一起更新,然后将参数copy给worker。

==

总结:AC更新 actor使用策略梯度下降更新

Critic使用一下6选1都可以更新

相关推荐
yumuing2 天前
Visual-RFT视觉强化微调:用「试错学习」教会AI看图说话
算法·强化学习·图像识别
林泽毅2 天前
SwanLab简明教程:从入门到高手
深度学习·机器学习·强化学习
Mr.Winter`4 天前
深度强化学习 | 详解过估计现象与Double DQN算法(附Pytorch实现)
人工智能·pytorch·深度学习·神经网络·自动驾驶·ros·强化学习
deephub4 天前
Visual-RFT:基于强化学习的视觉语言模型微调技术研究
人工智能·语言模型·自然语言处理·大语言模型·强化学习
Nicolas8934 天前
【大模型实战篇】vllm本地部署阿里最新的QwQ-32B推理模型以及体验
大模型·强化学习·千问·r1·推理模型·32b
木亦汐丫4 天前
【大模型系列篇】国产开源大模型DeepSeek-V3技术报告解析
sft·rl·mtp·mla·deepseekmoe·fp8 混合精度训练·dualpipe算法
随机惯性粒子群4 天前
wheel_legged_genesis 开源项目复现与问题记录
学习·开源·github·强化学习·genesis
山顶夕景14 天前
【LLM】R1复现项目(SimpleRL、OpenR1、LogitRL、TinyZero)持续更新
llm·强化学习·deepseek·r1
一颗小树x14 天前
机器人学习模拟框架 robosuite 支持强化学习和模仿学习 (1) 快速入门
机器人·强化学习·模拟·robosuite·模仿学习
老A的AI实验室15 天前
通俗理解Test time Scaling Law、RL Scaling Law和预训练Scaling Law
人工智能·深度学习·算法·chatgpt·llm·agi·rl