学习深度强化学习---第3部分----RL蒙特卡罗相关算法

文章目录

    • [3.1节 蒙特卡罗法简介](#3.1节 蒙特卡罗法简介)
    • [3.2节 蒙特卡罗策略评估](#3.2节 蒙特卡罗策略评估)
    • [3.3节 蒙特卡罗强化学习](#3.3节 蒙特卡罗强化学习)
    • [3.4节 异策略蒙特卡罗法](#3.4节 异策略蒙特卡罗法)

本部分视频所在地址:深度强化学习的理论与实践

3.1节 蒙特卡罗法简介

在其他学科中的蒙特卡罗法是一种抽样的方法。

如果状态转移概率是已知的,则是基于模型的方法。如果状态转移概率是未知的,则是免模型的方法。动态规划方法无法求解倒立摆问题,即无法处理没有状态转移概率的问题。蒙特卡罗法可以求解。

无偏估计量的理解参考:什么叫估计量的无偏性?一致性?有效性?、也可以参考下图(链接不好找,直接截图了):

3.2节 蒙特卡罗策略评估

法1:ML拟合模拟数据法:本节不讲应用机器学习算法学习一个转移概率(这种方法是模拟出大量的数据,即下图中列出来的数据,然后使用一些ML如监督学习的方法来学习出P_head(s'|s,a)

法2:免模型强化学习法(即蒙特卡罗方法)

一个经历完整的MDP序列称为一次采样

3.3节 蒙特卡罗强化学习

3.4节 异策略蒙特卡罗法

相关推荐
智能汽车人18 小时前
Robot---能打羽毛球的机器人
人工智能·机器人·强化学习
SunStriKE13 天前
veRL代码阅读-2.Ray
强化学习
我爱C编程14 天前
基于强化学习的5G通信网络基站资源动态分配策略matlab性能仿真
5g·matlab·强化学习·基站资源动态分配
微软开发者14 天前
极客说|强化学习(RL)与有监督微调(SFT)的选择以及奖励函数的优化
强化学习
SunStriKE15 天前
veRL代码阅读-1.论文原理
深度学习·强化学习·源码阅读
Listennnn17 天前
强化学习三大分类
人工智能·强化学习
JNU freshman17 天前
强化学习之 DQN、Double DQN、PPO
强化学习
MarkGosling18 天前
【资源合集】强化学习训练LLM Agents的实战资源库:AgentsMeetRL
llm·agent·强化学习
汤姆和佩琦18 天前
LLMs基础学习(八)强化学习专题(4)
学习·强化学习·策略随机探索
Gowi_fly20 天前
从 PPO、DPO 到 GRPO:大语言模型策略优化算法解析
llm·强化学习