贝尔曼最优公式(BOE)

回顾上一节,我们给出了贝尔曼方程的状态价值函数:

和动作价值函数:

这两个函数都是对于给定策略π来说的,强化学习的目的是寻找最佳策略,所以下一个问题自然而然的是:

本篇就研究这个问题,进一步要回答四个问题:

  • 最优策略是否存在
  • 如果存在,最优策略是唯一的吗
  • 最优策略是固定的还是随机的
  • 怎么样获取最优策略

1

贝尔曼最优方程

首先,我们给出贝尔曼最优方程(Bellman optimality equation)的定义:

也可以写成矩阵形式:

这东西怎么求?还是得回到最简单的数学分析。先看两个例子。

  • 例1
  • 例2

我们再调整一下BOE公式,就很容易得到:

2

求解BOE

BOE的矩阵形式是关于状态价值函数的向量形式,我们可以定义函数:

为求解这个函数,我们要引入压缩映射定理,又称Banach不动点定理(Contraction Mapping Theorem):

什么是压缩映射,标准定义:

我们证明BOE函数矩阵形式满足压缩映射定理,其实也很简单:

3

BOE迭代算法

综上,我们可以给出贝尔曼最优方程的迭代步骤了:

这个也成为BOE的数值迭代算法(value iteration)!

相关推荐
灵感__idea13 小时前
Hello 算法:贪心的世界
前端·javascript·算法
HIT_Weston14 小时前
45、【Agent】【OpenCode】本地代理分析(请求&接收回调)
人工智能·agent·opencode
逻辑君14 小时前
认知神经科学研究报告【20260010】
人工智能·深度学习·神经网络·机器学习
星河耀银海14 小时前
远控体验分享:安全与实用性参考
人工智能·安全·微服务
澈20714 小时前
深入浅出C++滑动窗口算法:原理、实现与实战应用详解
数据结构·c++·算法
企业架构师老王15 小时前
2026企业架构演进:科普Agent(龙虾)如何从“极客玩具”走向实在Agent规模化落地?
人工智能·ai·架构
GreenTea15 小时前
一文搞懂Harness Engineering与Meta-Harness
前端·人工智能·后端
ambition2024215 小时前
从暴力搜索到理论最优:一道任务调度问题的完整算法演进历程
c语言·数据结构·c++·算法·贪心算法·深度优先
cmpxr_15 小时前
【C】原码和补码以及环形坐标取模算法
c语言·开发语言·算法
qiqsevenqiqiqiqi15 小时前
前缀和差分
算法·图论