学习深度强化学习---第3部分----RL蒙特卡罗相关算法

文章目录

    • [3.1节 蒙特卡罗法简介](#3.1节 蒙特卡罗法简介)
    • [3.2节 蒙特卡罗策略评估](#3.2节 蒙特卡罗策略评估)
    • [3.3节 蒙特卡罗强化学习](#3.3节 蒙特卡罗强化学习)
    • [3.4节 异策略蒙特卡罗法](#3.4节 异策略蒙特卡罗法)

本部分视频所在地址:深度强化学习的理论与实践

3.1节 蒙特卡罗法简介

在其他学科中的蒙特卡罗法是一种抽样的方法。

如果状态转移概率是已知的,则是基于模型的方法。如果状态转移概率是未知的,则是免模型的方法。动态规划方法无法求解倒立摆问题,即无法处理没有状态转移概率的问题。蒙特卡罗法可以求解。

无偏估计量的理解参考:什么叫估计量的无偏性?一致性?有效性?、也可以参考下图(链接不好找,直接截图了):

3.2节 蒙特卡罗策略评估

法1:ML拟合模拟数据法:本节不讲应用机器学习算法学习一个转移概率(这种方法是模拟出大量的数据,即下图中列出来的数据,然后使用一些ML如监督学习的方法来学习出P_head(s'|s,a)

法2:免模型强化学习法(即蒙特卡罗方法)

一个经历完整的MDP序列称为一次采样

3.3节 蒙特卡罗强化学习

3.4节 异策略蒙特卡罗法

相关推荐
黑客思维者11 小时前
机器学习005:强化学习(概论)--从“训练狗狗”到“打游戏”
人工智能·机器学习·强化学习
赫凯2 天前
【强化学习】第一章 强化学习初探
人工智能·python·强化学习
nju_spy3 天前
深度强化学习 TRPO 置信域策略优化实验(sb3_contrib / 手搓 + CartPole-v1 / Breakout-v5)
人工智能·强化学习·共轭梯度法·策略网络·trpo·sb3_contrib·breakout游戏
徐桑3 天前
【强化学习笔记】从数学推导到电机控制:深入理解 Policy Gradient 与 Sim-to-Real。
机器人·强化学习
加点油。。。。3 天前
【强化学习】——策略梯度方法
人工智能·机器学习·强化学习
kkkkkkkkk_12014 天前
【强化学习】07周博磊强化学习纲要学习笔记——第四课上
学习·强化学习
free-elcmacom4 天前
机器学习高阶教程<2>优化理论实战:BERT用AdamW、强化学习爱SGD
人工智能·python·机器学习·bert·强化学习·大模型训练的优化器选择逻辑
AI-Frontiers5 天前
小白也能看懂的RLHF-PPO:原理篇
强化学习
传说故事5 天前
RL中的同步和异步(On-Policy & Off-Policy)的通俗解释
人工智能·强化学习
视觉&物联智能7 天前
【杂谈】-RL即服务:解锁新一轮自主浪潮
人工智能·ai·chatgpt·aigc·强化学习·agi·deepseek