贝尔曼最优公式(BOE)

回顾上一节,我们给出了贝尔曼方程的状态价值函数:

和动作价值函数:

这两个函数都是对于给定策略π来说的,强化学习的目的是寻找最佳策略,所以下一个问题自然而然的是:

本篇就研究这个问题,进一步要回答四个问题:

  • 最优策略是否存在
  • 如果存在,最优策略是唯一的吗
  • 最优策略是固定的还是随机的
  • 怎么样获取最优策略

1

贝尔曼最优方程

首先,我们给出贝尔曼最优方程(Bellman optimality equation)的定义:

也可以写成矩阵形式:

这东西怎么求?还是得回到最简单的数学分析。先看两个例子。

  • 例1
  • 例2

我们再调整一下BOE公式,就很容易得到:

2

求解BOE

BOE的矩阵形式是关于状态价值函数的向量形式,我们可以定义函数:

为求解这个函数,我们要引入压缩映射定理,又称Banach不动点定理(Contraction Mapping Theorem):

什么是压缩映射,标准定义:

我们证明BOE函数矩阵形式满足压缩映射定理,其实也很简单:

3

BOE迭代算法

综上,我们可以给出贝尔曼最优方程的迭代步骤了:

这个也成为BOE的数值迭代算法(value iteration)!

相关推荐
云上的云端11 小时前
vLLM-Ascend operator torchvision::nms does not exist 问题解决
人工智能·pytorch·深度学习
计算机安禾11 小时前
【C语言程序设计】第37篇:链表数据结构(一):单向链表的实现
c语言·开发语言·数据结构·c++·算法·链表·蓝桥杯
啊哦呃咦唔鱼11 小时前
LeetCode hot100-73 矩阵置零
算法
szxinmai主板定制专家11 小时前
基于ZYNQ MPSOC船舶数据采集仪器设计(一)总体设计方案,包括振动、压力、温度、流量等参数
arm开发·人工智能·嵌入式硬件·fpga开发
Westward-sun.11 小时前
CNN 核心知识点详解:从图像基础到卷积与池化
人工智能·计算机视觉·cnn
阿贵---11 小时前
C++构建缓存加速
开发语言·c++·算法
IT_陈寒11 小时前
SpringBoot自动配置揭秘:5个让开发效率翻倍的隐藏技巧
前端·人工智能·后端
Queenie_Charlie12 小时前
最长回文子串 V2(Manacher算法)
c++·算法·manacher算法
Evand J12 小时前
【MATLAB复现RRT(快速随机树)算法】用于二维平面上的无人车路径规划与避障,含性能分析与可视化
算法·matlab·平面·无人车·rrt·避障
一招定胜负12 小时前
机器学习+深度学习经典算法面试复习指南
深度学习·算法·机器学习