学习深度强化学习---第3部分----RL蒙特卡罗相关算法

文章目录

    • [3.1节 蒙特卡罗法简介](#3.1节 蒙特卡罗法简介)
    • [3.2节 蒙特卡罗策略评估](#3.2节 蒙特卡罗策略评估)
    • [3.3节 蒙特卡罗强化学习](#3.3节 蒙特卡罗强化学习)
    • [3.4节 异策略蒙特卡罗法](#3.4节 异策略蒙特卡罗法)

本部分视频所在地址:深度强化学习的理论与实践

3.1节 蒙特卡罗法简介

在其他学科中的蒙特卡罗法是一种抽样的方法。

如果状态转移概率是已知的,则是基于模型的方法。如果状态转移概率是未知的,则是免模型的方法。动态规划方法无法求解倒立摆问题,即无法处理没有状态转移概率的问题。蒙特卡罗法可以求解。

无偏估计量的理解参考:什么叫估计量的无偏性?一致性?有效性?、也可以参考下图(链接不好找,直接截图了):

3.2节 蒙特卡罗策略评估

法1:ML拟合模拟数据法:本节不讲应用机器学习算法学习一个转移概率(这种方法是模拟出大量的数据,即下图中列出来的数据,然后使用一些ML如监督学习的方法来学习出P_head(s'|s,a)

法2:免模型强化学习法(即蒙特卡罗方法)

一个经历完整的MDP序列称为一次采样

3.3节 蒙特卡罗强化学习

3.4节 异策略蒙特卡罗法

相关推荐
荒野火狐8 天前
【FreeRL】我的深度学习库构建思想
人工智能·深度学习·强化学习·dqn
Nicolas89325 天前
【大模型理论篇】强化学习RL与大模型智能体
大模型·llm·强化学习·策略梯度·dqn·rl·智能体
我是陈扣题1 个月前
使用RKNN在Orange Pi 5 (RK3588s) 上部署推理PPO深度学习模型
人工智能·深度学习·rk3588·强化学习·模型部署·ppo·orangep
Nicolas8931 个月前
【大模型理论篇】GPT系列预训练模型原理讲解
gpt·chatgpt·大模型·sft·强化学习·rlhf·人类反馈
kuan_li_lyg1 个月前
MATLAB - 强化学习(Reinforcement Learning)
开发语言·人工智能·机器学习·matlab·机器人·自动驾驶·强化学习
恋上钢琴的虫2 个月前
基于强化学习算法玩CartPole游戏
强化学习
芝士工具猿2 个月前
GRL-图强化学习
python·强化学习·图神经网络·grl
热血厨师长2 个月前
狗都能看懂的Proximal Policy Optimization(PPO)PPO算法详解
深度学习·算法·强化学习
muyuu2 个月前
【强化学习的数学原理】课程笔记--4(随机近似与随机梯度下降,时序差分方法)
人工智能·机器学习·强化学习
zoe22222266662 个月前
ns3-gym入门(一):代码结构和简单例子
linux·c++·强化学习·ns3-gym·ns3·opengym