学习深度强化学习---第3部分----RL蒙特卡罗相关算法

文章目录

    • [3.1节 蒙特卡罗法简介](#3.1节 蒙特卡罗法简介)
    • [3.2节 蒙特卡罗策略评估](#3.2节 蒙特卡罗策略评估)
    • [3.3节 蒙特卡罗强化学习](#3.3节 蒙特卡罗强化学习)
    • [3.4节 异策略蒙特卡罗法](#3.4节 异策略蒙特卡罗法)

本部分视频所在地址:深度强化学习的理论与实践

3.1节 蒙特卡罗法简介

在其他学科中的蒙特卡罗法是一种抽样的方法。

如果状态转移概率是已知的,则是基于模型的方法。如果状态转移概率是未知的,则是免模型的方法。动态规划方法无法求解倒立摆问题,即无法处理没有状态转移概率的问题。蒙特卡罗法可以求解。

无偏估计量的理解参考:什么叫估计量的无偏性?一致性?有效性?、也可以参考下图(链接不好找,直接截图了):

3.2节 蒙特卡罗策略评估

法1:ML拟合模拟数据法:本节不讲应用机器学习算法学习一个转移概率(这种方法是模拟出大量的数据,即下图中列出来的数据,然后使用一些ML如监督学习的方法来学习出P_head(s'|s,a)

法2:免模型强化学习法(即蒙特卡罗方法)

一个经历完整的MDP序列称为一次采样

3.3节 蒙特卡罗强化学习

3.4节 异策略蒙特卡罗法

相关推荐
成都犀牛1 小时前
强化学习(5)多智能体强化学习
人工智能·机器学习·强化学习
simon_skywalker4 天前
第7章 n步时序差分 n步时序差分预测
人工智能·算法·强化学习
GRITJW4 天前
强化学习系统性学习笔记(二):策略优化的理论基础与算法实现
强化学习
山顶夕景6 天前
【LLM-RL】GSPO算法Group Sequence Policy Optimization
llm·强化学习·rlhf·gspo
山顶夕景7 天前
【LLM】基于ms-Swift大模型SFT和RL的训练实践
大模型·微调·swift·强化学习
GRITJW7 天前
强化学习系统性学习笔记(一):从理论基础到策略优化
强化学习
、、、、南山小雨、、、、9 天前
Pytorch强化学习demo
pytorch·深度学习·机器学习·强化学习
段智华9 天前
“AI+“行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地 GPT-OSS 一可控AI目前全球唯一开源解决方案
强化学习·大模型微调
大千AI助手11 天前
MATH-500:大模型数学推理能力评估基准
人工智能·大模型·llm·强化学习·评估基准·数学推理能力·math500
帅帅爱数学14 天前
DeepMimic论文详细解析:基于示例引导的深度强化学习实现物理仿真角色技能
算法·强化学习