学习深度强化学习---第3部分----RL蒙特卡罗相关算法

文章目录

    • [3.1节 蒙特卡罗法简介](#3.1节 蒙特卡罗法简介)
    • [3.2节 蒙特卡罗策略评估](#3.2节 蒙特卡罗策略评估)
    • [3.3节 蒙特卡罗强化学习](#3.3节 蒙特卡罗强化学习)
    • [3.4节 异策略蒙特卡罗法](#3.4节 异策略蒙特卡罗法)

本部分视频所在地址:深度强化学习的理论与实践

3.1节 蒙特卡罗法简介

在其他学科中的蒙特卡罗法是一种抽样的方法。

如果状态转移概率是已知的,则是基于模型的方法。如果状态转移概率是未知的,则是免模型的方法。动态规划方法无法求解倒立摆问题,即无法处理没有状态转移概率的问题。蒙特卡罗法可以求解。

无偏估计量的理解参考:什么叫估计量的无偏性?一致性?有效性?、也可以参考下图(链接不好找,直接截图了):

3.2节 蒙特卡罗策略评估

法1:ML拟合模拟数据法:本节不讲应用机器学习算法学习一个转移概率(这种方法是模拟出大量的数据,即下图中列出来的数据,然后使用一些ML如监督学习的方法来学习出P_head(s'|s,a)

法2:免模型强化学习法(即蒙特卡罗方法)

一个经历完整的MDP序列称为一次采样

3.3节 蒙特卡罗强化学习

3.4节 异策略蒙特卡罗法

相关推荐
Code-world-111 小时前
NVIDIA Isaac Sim 安装教程
linux·人工智能·ubuntu·强化学习·isaac sim
糖葫芦君17 小时前
TRPO-trust region policy optimization论文讲解
人工智能·算法·机器学习·强化学习
蓝海星梦17 小时前
【强化学习】深度解析 DAPO:从 GRPO 到 Decoupled Clip & Dynamic Sampling
人工智能·深度学习·自然语言处理·强化学习
deephub2 天前
多智能体强化学习(MARL)核心概念与算法概览
人工智能·机器学习·强化学习·多智能体
奔跑的花短裤2 天前
ubuntu安装Isaac sim4.5与强化学习使用
linux·ubuntu·机器人·强化学习·isaac sim·isaac lab
victory04312 天前
大模型后训练强化学习理论基础应该看李宏毅强化学习还是看斯坦福CS234
强化学习
人工智能培训4 天前
如何大幅降低大模型的训练和推理成本?
人工智能·深度学习·大模型·知识图谱·强化学习·智能体搭建·大模型工程师
清蒸鳜鱼4 天前
【系列跟学之——强化学习】基础篇
机器学习·语言模型·强化学习
WhereIsMyChair5 天前
VERL的损失函数计算方式
强化学习
蜡笔小新..5 天前
从零学习 RL :初识强化学习
人工智能·强化学习·rl