学习深度强化学习---第3部分----RL蒙特卡罗相关算法

文章目录

    • [3.1节 蒙特卡罗法简介](#3.1节 蒙特卡罗法简介)
    • [3.2节 蒙特卡罗策略评估](#3.2节 蒙特卡罗策略评估)
    • [3.3节 蒙特卡罗强化学习](#3.3节 蒙特卡罗强化学习)
    • [3.4节 异策略蒙特卡罗法](#3.4节 异策略蒙特卡罗法)

本部分视频所在地址:深度强化学习的理论与实践

3.1节 蒙特卡罗法简介

在其他学科中的蒙特卡罗法是一种抽样的方法。

如果状态转移概率是已知的,则是基于模型的方法。如果状态转移概率是未知的,则是免模型的方法。动态规划方法无法求解倒立摆问题,即无法处理没有状态转移概率的问题。蒙特卡罗法可以求解。

无偏估计量的理解参考:什么叫估计量的无偏性?一致性?有效性?、也可以参考下图(链接不好找,直接截图了):

3.2节 蒙特卡罗策略评估

法1:ML拟合模拟数据法:本节不讲应用机器学习算法学习一个转移概率(这种方法是模拟出大量的数据,即下图中列出来的数据,然后使用一些ML如监督学习的方法来学习出P_head(s'|s,a)

法2:免模型强化学习法(即蒙特卡罗方法)

一个经历完整的MDP序列称为一次采样

3.3节 蒙特卡罗强化学习

3.4节 异策略蒙特卡罗法

相关推荐
DuanGe5 天前
Chrome浏览器页面中跳转到IE浏览器页面
强化学习
阿里云大数据AI技术7 天前
基于PAI-ChatLearn的GSPO强化学习实践
人工智能·llm·强化学习
代码哲学系8 天前
第一阶段:Java基础入门④Java核心API
java·强化学习
防搞活机9 天前
强化学习笔记:从Q学习到GRPO
笔记·深度学习·机器学习·强化学习
我爱C编程10 天前
基于Qlearning强化学习的水下无人航行器三维场景路径规划与避障系统matlab性能仿真
matlab·强化学习·qlearning·三维路径规划
有梦想的攻城狮11 天前
Q-Learning详解:从理论到实践的全面解析
强化学习·q-learning
威化饼的一隅15 天前
【多模态】DPO学习笔记
大模型·llm·强化学习·rlhf·dpo
雪碧聊技术21 天前
机器学习的算法有哪些?
监督学习·强化学习·无监督学习·半监督学习·机器学习的算法
山顶夕景21 天前
【LLM】Kimi-K2模型架构(MuonClip 优化器等)
大模型·llm·agent·强化学习·智能体
ziix25 天前
多源信息融合智能投资【“图神经网络+强化学习“的融合架构】【低配显卡正常运行】
人工智能·深度学习·神经网络·强化学习·图神经网络·gnn