【强化学习】强化学习的数学原理课程笔记第三章 最优贝尔曼公式

这一章介绍最优策略与贝尔曼最优公式

贝尔曼最优公式是贝尔曼公式的一个特殊情况

学习的过程中重点关注两个概念与一个公式

这两个概念是最优状态值和最优策略

一个公式就是贝尔曼最优公式

第一件事是求解贝尔曼最优公式得到状态值,从而得到action value

求解出来后,发现一个问题,就是当前这个策略实际上是不太好的,因为在s1s_1s1状态下他向右进入了禁止区域

发现a3a_3a3对应的action value是最大的


问题:

这种最优的策略是否存在?

这种最优的策略是否是唯一的?

这种最优的策略是确定性的还是非确定性的

在常规的贝尔曼公式前面加上一个max,这个时候π\piπ就是给定的

需要求解这个最优化问题,求解出来π\piπ,然后带回到公式里面去,


这个式子里面有一个未知量v,然后还需要求解一个π\piπ ,






把maxπmax_{\pi}maxπ改写为一个函数f(v)

首先要介绍压缩映射定理 和 不动点



压缩映射定理 告诉我们三个重要的结论

第一是:不关心f函数究竟是什么?只要它满足这个定理,它一定存在一个不动点,满足f(x*)=x*

第二是:这个不动点是唯一存在的

第三是:我知道是如何求解的




什么样的因素决定了最优策略

奖励的设计、系统模型



仿射变换

不看action value的绝对值而是相对值

相关推荐
马猴烧酒.1 小时前
【JAVA算法|hot100】栈类型题目详解笔记
java·笔记
Rsingstarzengjx1 小时前
【Photoshop从入门到精通】-21 图层进阶 笔记
笔记·ui·photoshop
四谎真好看2 小时前
SSM学习笔记(SpringMVC篇 Day02)
笔记·学习·学习笔记·ssm
蒸蒸yyyyzwd2 小时前
后端学习笔记
笔记
智者知已应修善业2 小时前
【蓝桥杯单词分析最多字母次数并列字典最小输出】2025-4-15
c语言·c++·经验分享·笔记·算法·蓝桥杯
EmbedLinX13 小时前
嵌入式Linux之U-Boot
linux·服务器·笔记·学习
今儿敲了吗15 小时前
23| 画展
c++·笔记·学习·算法
山岚的运维笔记17 小时前
SQL Server笔记 -- 第68章:内存中 OLTP(Hekaton)
数据库·笔记·sql·microsoft·sqlserver
winfreedoms18 小时前
ROS2机械臂——黑马程序员ROS2课程上课笔记(3)
arm开发·笔记