学习深度强化学习---第3部分----RL蒙特卡罗相关算法

文章目录

    • [3.1节 蒙特卡罗法简介](#3.1节 蒙特卡罗法简介)
    • [3.2节 蒙特卡罗策略评估](#3.2节 蒙特卡罗策略评估)
    • [3.3节 蒙特卡罗强化学习](#3.3节 蒙特卡罗强化学习)
    • [3.4节 异策略蒙特卡罗法](#3.4节 异策略蒙特卡罗法)

本部分视频所在地址:深度强化学习的理论与实践

3.1节 蒙特卡罗法简介

在其他学科中的蒙特卡罗法是一种抽样的方法。

如果状态转移概率是已知的,则是基于模型的方法。如果状态转移概率是未知的,则是免模型的方法。动态规划方法无法求解倒立摆问题,即无法处理没有状态转移概率的问题。蒙特卡罗法可以求解。

无偏估计量的理解参考:什么叫估计量的无偏性?一致性?有效性?、也可以参考下图(链接不好找,直接截图了):

3.2节 蒙特卡罗策略评估

法1:ML拟合模拟数据法:本节不讲应用机器学习算法学习一个转移概率(这种方法是模拟出大量的数据,即下图中列出来的数据,然后使用一些ML如监督学习的方法来学习出P_head(s'|s,a)

法2:免模型强化学习法(即蒙特卡罗方法)

一个经历完整的MDP序列称为一次采样

3.3节 蒙特卡罗强化学习

3.4节 异策略蒙特卡罗法

相关推荐
指掀涛澜天下惊17 小时前
AI 基础知识十九 强化学习前言
人工智能·机器学习·强化学习
劈星斩月19 小时前
机器学习之 定义与三大范式
人工智能·机器学习·监督学习·强化学习·无监督学习
文艺倾年21 小时前
【强化学习】数学推导专题,20W字总结(十五)
人工智能·分布式·大模型·强化学习·vibecoding
盼小辉丶21 小时前
PyTorch强化学习实战(14)——优先经验回放机制
pytorch·python·深度学习·强化学习
文艺倾年3 天前
【强化学习】MDP、贝尔曼方程与CartPole 编程,20W字总结(二)
人工智能·软件工程·强化学习
happyprince3 天前
07_verl-Trainer模块详解
人工智能·架构·wpf·强化学习
chen_zn954 天前
RLinf复现RECAP(一):从轨迹回报到优势标签
人工智能·强化学习·具身智能·vla
happyprince4 天前
08_verl-Workers模块详解
人工智能·架构·强化学习
happyprince4 天前
02_verl-代码目录结构详解
人工智能·架构·强化学习
happyprince4 天前
10_verl-Rollout模块详解
人工智能·架构·强化学习