西湖大学强化学习第三讲——贝尔曼最优公式

贝尔曼最优公式

[1 策略比较与最优策略](#1 策略比较与最优策略)
- [1.1 Action value 的作用](#1.1 Action value 的作用)
- [1.2 策略比较与最优策略](#1.2 策略比较与最优策略)
[2 贝尔曼最优公式（Bellman Optimality Equation）](#2 贝尔曼最优公式（Bellman Optimality Equation）)
- [2.1 贝尔曼最优公式](#2.1 贝尔曼最优公式)
- [2.2 贝尔曼最优公式求解](#2.2 贝尔曼最优公式求解)
[3 矩阵形式的解](#3 矩阵形式的解)
- [3.1 收缩映射定理（Constraction Mapping theorem）](#3.1 收缩映射定理（Constraction Mapping theorem）)
- [3.2 解贝尔曼最优公式](#3.2 解贝尔曼最优公式)
- [3.3 贝尔曼最优公式解的最优性](#3.3 贝尔曼最优公式解的最优性)
[4 最优策略的有趣性质](#4 最优策略的有趣性质)
- [4.1 影响最优策略的因素](#4.1 影响最优策略的因素)
- [4.2 改变折扣率](#4.2 改变折扣率)
- [4.3 改变奖励机制](#4.3 改变奖励机制)
[5 总结](#5 总结)

1 策略比较与最优策略

1.1 Action value 的作用

在网格世界中，有以下策略，根据贝尔曼公式可以得到 state value。

得到 state value 后，可以计算得到 action value：

可以看到，当前状态下（ S = s 1 S=s_1 S=s1）， A = a 3 A=a_3 A=a3 的 action value 最高，也就是说， a 3 a_3 a3 的价值最高，但给的策略却是向右，即 A = a 2 A=a_2 A=a2，我们需要调整策略，选择最优动作。

从上面的示例可以看到，action value 可以用来调整策略。

1.2 策略比较与最优策略

如何从数学角度比较两个策略的好坏？我们上一讲介绍的 state value 就可以，如果策略A，在任何状态下，它的 state value 都高于另一个策略B，那么就说明策略A好于策略B，数学定义如下：

上一讲中介绍到，状态价值函数 υ π ( s ) \upsilon _{\pi}(s) υπ(s) 是状态 s s s 和策略 π \pi π 的函数，上面对比中，是遍历了所有状态，那么计算两个策略大的状态价值函数时，自变量只有策略 π \pi π 不一样。

如果一个策略好于其他所有策略，那么这个策略就是最优策略，数学定义如下：

2 贝尔曼最优公式（Bellman Optimality Equation）

2.1 贝尔曼最优公式

我们先给出贝尔曼最优公式（Bellman Optimality Equation，BOE）的定义：

贝尔曼最优公式的矩阵向量形式为：

如何理解上述公式？对于状态 s 1 s_1 s1，遍历所有策略，然后找到最大的 state value，这个最大的 state value 就是 υ ( s 1 ) \upsilon(s_1) υ(s1)，其他状态以此类推。

可能有人会问，假如状态 s 1 s_1 s1 在 π 1 \pi_1 π1 时取得最大的 state value，状态 s 2 s_2 s2 在 π 2 \pi_2 π2 时取得最大的 state value，那么最优策略是 π 1 \pi_1 π1 还是 π 2 \pi_2 π2 ？或者说，最优策略是否存在，是否唯一？是原有策略中的一个，还是对原有策略的动作进行拆分再组合？要解答这些问题，得看本文的第三章。