【强化学习】强化学习的数学原理课程笔记第三章 最优贝尔曼公式

这一章介绍最优策略与贝尔曼最优公式

贝尔曼最优公式是贝尔曼公式的一个特殊情况

学习的过程中重点关注两个概念与一个公式

这两个概念是最优状态值和最优策略

一个公式就是贝尔曼最优公式

第一件事是求解贝尔曼最优公式得到状态值,从而得到action value

求解出来后,发现一个问题,就是当前这个策略实际上是不太好的,因为在s1s_1s1状态下他向右进入了禁止区域

发现a3a_3a3对应的action value是最大的


问题:

这种最优的策略是否存在?

这种最优的策略是否是唯一的?

这种最优的策略是确定性的还是非确定性的

在常规的贝尔曼公式前面加上一个max,这个时候π\piπ就是给定的

需要求解这个最优化问题,求解出来π\piπ,然后带回到公式里面去,


这个式子里面有一个未知量v,然后还需要求解一个π\piπ ,






把maxπmax_{\pi}maxπ改写为一个函数f(v)

首先要介绍压缩映射定理 和 不动点



压缩映射定理 告诉我们三个重要的结论

第一是:不关心f函数究竟是什么?只要它满足这个定理,它一定存在一个不动点,满足f(x*)=x*

第二是:这个不动点是唯一存在的

第三是:我知道是如何求解的




什么样的因素决定了最优策略

奖励的设计、系统模型



仿射变换

不看action value的绝对值而是相对值

相关推荐
LinXunFeng3 天前
Obsidian - 使用 Share Note 分享笔记并自部署
前端·笔记·github
闪闪发亮的小星星7 天前
高斯光以及高斯光公式解释
笔记
cqbzcsq7 天前
CellFlow虚拟细胞论文阅读
论文阅读·人工智能·笔记·学习·生物信息
阿米亚波7 天前
【Windows】QEMU 启动 openEuler aarch64/arm64 架构系统 + 离线软件源
linux·windows·经验分享·笔记·架构·arm
自传.7 天前
尚硅谷 Vibe Coding|第三章(1) Claude Code深度使用与进阶技巧 学习笔记
笔记·学习·尚硅谷·vibecoding
.千余7 天前
【C++】模板进阶全解:非类型参数|全特化|偏特化|分离编译完全指南
开发语言·c++·笔记·学习·其他
自传.7 天前
尚硅谷 Vibe Coding|第二章 AI编程工具生态 学习笔记
笔记·学习·ai编程·尚硅谷·vibe coding
秋波。未央7 天前
Java Agent 开发 · Day 1 学习笔记(含作业完整标准答案)
java·笔记·学习
中屹指纹浏览器7 天前
2026指纹浏览器字体指纹、字体渲染偏差检测与全维度虚拟字体池搭建方案
经验分享·笔记