贝尔曼最优公式(BOE)

回顾上一节,我们给出了贝尔曼方程的状态价值函数:

和动作价值函数:

这两个函数都是对于给定策略π来说的,强化学习的目的是寻找最佳策略,所以下一个问题自然而然的是:

本篇就研究这个问题,进一步要回答四个问题:

  • 最优策略是否存在
  • 如果存在,最优策略是唯一的吗
  • 最优策略是固定的还是随机的
  • 怎么样获取最优策略

1

贝尔曼最优方程

首先,我们给出贝尔曼最优方程(Bellman optimality equation)的定义:

也可以写成矩阵形式:

这东西怎么求?还是得回到最简单的数学分析。先看两个例子。

  • 例1
  • 例2

我们再调整一下BOE公式,就很容易得到:

2

求解BOE

BOE的矩阵形式是关于状态价值函数的向量形式,我们可以定义函数:

为求解这个函数,我们要引入压缩映射定理,又称Banach不动点定理(Contraction Mapping Theorem):

什么是压缩映射,标准定义:

我们证明BOE函数矩阵形式满足压缩映射定理,其实也很简单:

3

BOE迭代算法

综上,我们可以给出贝尔曼最优方程的迭代步骤了:

这个也成为BOE的数值迭代算法(value iteration)!

相关推荐
日拱一卒——功不唐捐5 小时前
字符串匹配:暴力法和KMP算法(C语言)
c语言·算法
2501_946961475 小时前
极简大气创业融资 PPT 模板,适合路演、项目宣讲
人工智能·排序算法
得一录5 小时前
AI 语音助手:如何用大模型优化智能语音交互?
人工智能
玄同7655 小时前
Python 自动发送邮件实战:用 QQ/163 邮箱发送大模型生成的内容
开发语言·人工智能·python·深度学习·机器学习·邮件·邮箱
逸俊晨晖5 小时前
NVIDIA 4090的8路1080p实时YOLOv8目标检测
人工智能·yolo·目标检测·nvidia
Olamyh5 小时前
【手搓 ReAct Agent:告别框架,回归本质】
人工智能·python
seaside20035 小时前
大模型计算量、显存计算方法推导
人工智能·大模型
AI资源库5 小时前
nvidiapersonaplex-7b-v1模型深入解析
人工智能·语言模型·回归
renke33645 小时前
Flutter for OpenHarmony:数字涟漪 - 基于扩散算法的逻辑解谜游戏设计与实现
算法·flutter·游戏