最优值函数二

一、扫地机器人的示例

我们可以明确给出扫地机器人的Bellman最优方程。为了使问题更简洁，我们将状态高和低以及动作搜索、等待和充电分别缩写为h、l、s、w和re。由于只有两个状态，Bellman最优方程由两个方程组成。v∗(h)的方程可以写成：

按照前面相同的步骤，得到v∗(l)的方程为

对于任何选择的rs，rw，α，β和γ，其中0 ≤ γ < 1，0 ≤ α，β ≤ 1，存在恰好一对数字v∗(h)和v∗(l)，同时满足这两个非线性方程。

二、 Gridworld 的示例

假设我们解决了Bellman方程的v∗，对于在Gridworld中引入并再次在图1a中展示的简单网格任务。请记住，状态A后面跟着+10的奖励和到状态A0的转换，而状态B后面跟着+5的奖励和到状态B0的转换。图1b显示了最优值函数，图1c显示了相应的最优策略。在单元格中有多个箭头表示，任何相应的动作都是最佳的。

图1

显式地解决Bellman最优性方程提供了一种找到最优策略的途径，从而解决了强化学习问题。然而，这个解决方案很少直接有用。它类似于一个全面的搜索，前瞻性地看待所有可能性，计算它们发生的概率以及它们在预期奖励方面的适宜性。这个解决方案依赖于至少三个在实践中很少成立的假设：(1) 我们准确地知道环境的动态；(2) 我们有足够的计算资源来完成计算的解决方案；(3)马尔可夫属性。对于我们感兴趣的任务类型，一个人通常不能准确地实现这种解决方案，因为这些假设的各种组合是不成立的。例如，虽然第一个和第三个假设对双陆棋游戏没有造成问题，但第二个假设是一个主要的障碍。由于游戏有大约1020个状态，因此在当今最快的计算机上解决v∗的Bellman方程将需要数千年的时间，同样的情况也适用于寻找q∗。在强化学习中，通常需要求助于近似解。

许多不同的决策制定方法可以看作是近似求解Bellman最优方程的方法。例如，启发式搜索方法可以看作是将（3.17）的右侧展开几次，达到一定的深度，形成一个"树"的可能性，然后使用启发式评估函数来近似v∗的"叶子"节点。启发式搜索方法如A∗几乎总是基于离散情况。动态规划的方法与Bellman最优方程的关系更为密切。许多强化学习方法可以清楚地理解为近似求解Bellman最优方程，用实际的经验转移代替期望转移的知识。后续将考虑各种这样的方法。