学习深度强化学习---第3部分----RL蒙特卡罗相关算法

饿了就干饭2023-12-14 15:06

文章目录

- [3.1节蒙特卡罗法简介](#3.1节蒙特卡罗法简介)
- [3.2节蒙特卡罗策略评估](#3.2节蒙特卡罗策略评估)
- [3.3节蒙特卡罗强化学习](#3.3节蒙特卡罗强化学习)
- [3.4节异策略蒙特卡罗法](#3.4节异策略蒙特卡罗法)

本部分视频所在地址：深度强化学习的理论与实践

3.1节蒙特卡罗法简介

在其他学科中的蒙特卡罗法是一种抽样的方法。

如果状态转移概率是已知的，则是基于模型的方法。如果状态转移概率是未知的，则是免模型的方法。动态规划方法无法求解倒立摆问题，即无法处理没有状态转移概率的问题。蒙特卡罗法可以求解。

无偏估计量的理解参考：什么叫估计量的无偏性？一致性？有效性？、也可以参考下图（链接不好找，直接截图了）：

3.2节蒙特卡罗策略评估

法1：ML拟合模拟数据法：本节不讲应用机器学习算法学习一个转移概率（这种方法是模拟出大量的数据，即下图中列出来的数据，然后使用一些ML如监督学习的方法来学习出P_head(s'|s,a)）

法2：免模型强化学习法（即蒙特卡罗方法）

一个经历完整的MDP序列称为一次采样

3.3节蒙特卡罗强化学习

3.4节异策略蒙特卡罗法

上一篇：自定义View，实现日历展示事件

下一篇：spring-cloud-starter-openfeign的maven引入方式引发的故障，分析其原理

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05AI科技热点日报 | 2026年07月01日 06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 092026 年 AI 大模型 & AI 编程工具实战全总结 10CC-Switch & Claude 基于 Linux 服务器安装使用指南