最优值与逼近

一、最优值的逼近

我们已经定义了最优值函数和最优策略。显然，学习最优策略的智能体表现得非常好，但在实践中这种情况很少发生。对于我们感兴趣的任务类型，只能以极大的计算成本来生成最优策略。一个明确定义的最优性概念组织了我们在此书中描述的学习方法，并提供了一种理解各种学习算法的理论属性的方法，但它只是一个理想，智能体只能以不同的程度去逼近它。正如我们上面所讨论的，即使我们对环境的动态有一个完整和准确的模型，通常也不可能通过求解贝尔曼最优性方程来简单地计算最优策略。例如，国际象棋等棋盘游戏只占人类经验的很少一部分，然而，即使是大型定制计算机也无法计算出最优棋步。智能体所面临的问题的一个关键方面是它可用的计算能力，特别是它在一个时间步内可以进行的计算量。可用的内存也是一个重要的约束。建立近似值函数、策略和模型通常需要大量的内存。在具有小型有限状态集的任务中，可以使用每个状态（或状态-动作对）对应一个条目的数组或表格来构建这些近似值。我们将其称为表格情况，相应的我们将其称为表格方法。然而在许多实际情况下，可能存在的情况远超过表格中的条目数。在这些情况下，必须使用某种更紧凑的参数化函数表示来对这些函数进行近似。

我们对强化学习问题的框架使我们只能选择近似值。然而，它也为我们提供了实现有用近似的一些独特机会。例如，在近似最优行为时，智能体可能面临许多状态，以如此低的概率，为它们选择次优动作对智能体接收的奖励金额几乎没有影响。例如，Tesauro的Backgammon玩家尽管在对抗专家时可能从不会遇到棋盘配置，但它的出色表现甚至可能使它做出非常糟糕的决定。事实上，TD-Gammon可能会对游戏状态的很大一部分做出糟糕的决定。强化学习的在线性质使得有可能以一种更加努力的方式学习如何为经常遇到的状态做出好的决定，而牺牲不经常遇到的状态的学习努力。这是将强化学习与其他近似解决MDP的方法区分开来的一个关键属性。

二、动作、状态、奖励的作用

强化学习是从相互作用中学习如何表现以达到目标。强化学习智能体与其环境在离散时间步的序列中相互作用。他们接口定义了特定的任务：动作是智能体做出的选择；状态是做出选择的基础；奖励是评估选择的基础。智能体内部的一切都是完全已知且可由智能体控制的；智能体外部的一切都是不完全可控的，但可能完全已知也可能不完全已知。策略是智能体根据状态选择动作的随机规则。智能体的目标是最大化其接收的奖励金额。

回报是智能体寻求最大化的未来奖励函数。根据任务的性质和是否希望对延迟奖励进行折扣，它有几个不同的定义。无折扣的形式适用于成段任务，其中智能体与环境的相互作用自然分成段落；折扣形式适用于连续任务，其中相互作用不会自然分成段落，而是无限期地继续。

如果环境满足马尔可夫性质，那么其状态信号将简洁地概括过去，同时不会降低预测未来的能力。虽然这种情况很少完全成立，但通常几乎都是如此；状态信号应该被选择或构造，以使马尔可夫性质尽可能成立。在本书中，我们假设这已经被完成，并专注于决策制定问题：如何根据可用的状态信号决定做什么。如果马尔可夫性质成立，那么该环境被称为马尔可夫决策过程（MDP）。有限MDP是指状态和动作集都有限的MDP。当前强化学习的理论大多局限于有限MDP，但方法和思想更普遍适用。

三、策略和价值函数

策略的价值函数为每个状态或状态-动作对分配期望回报，假设智能体使用该策略。最优价值函数为每个状态或状态-动作对分配通过任何策略可以实现的最大的期望回报。其价值函数为最优的策略是最优策略。对于给定的MDP，状态和状态-动作对的最优价值函数是唯一的，但可能存在许多最优策略。任何对最优价值函数贪婪的策略必须是最优策略。贝尔曼最优性方程是特殊的恒等式，最优价值函数必须满足这些方程，原则上可以从这些方程中求解出最优价值函数，从而相对容易地确定最优策略。

根据对agent最初可用的知识的程度所做的假设，可以将强化学习问题以多种不同的方式提出。在完全知识的情况下，agent对其环境动态具有完整准确的模型。如果环境是MDP，则此类模型包括所有状态及其允许动作的一步转移概率和预期奖励。在不完全知识的情况下，无法获得完整准确的环境模型。即使agent具有完整准确的环境模型，agent通常也无法在每个时间步进行足够的计算来充分利用它。可用的内存也是一个重要约束。为了建立准确的价值函数、策略和模型的近似值，可能需要内存。在大多数实际情况下，状态数量远远超过可能成为表中的条目的数量，必须进行近似。

最优性的明确定义构成了我们描述的学习方法，并提供了一种理解各种学习算法的理论性质的方法，但它是强化学习智能体只能以不同程度来逼近的理想。在强化学习中，我们非常关注那些无法找到最优解但必须以某种方式逼近的情况。