国科大高级人工智能期末复习（五）行为主义

这部分大题只考过格子游戏和田忌赛马

格子游戏

仅从做题的角度来说，这个是非常简单的，不需要理解贝尔曼方程中的参数意义，知道怎么往里代数就行了。

（注：该形式实际上是由于本题中所有策略行为的奖励都相同，因此可以将奖励从求和符号中提取出来，如果你发现和PPT上形式不一致，其实该形式是PPT上的化简，后面会给一个策略行为的奖励不同的例子。此外由于该题的收益衰减因子（即折扣因子为1）因此再在方程中省去了）

假设格子1的状态估值为、格子2、3、4的状态估值为、、

状态估值的含义：它是在当前策略下，从某个状态（比如某个格子）出发，未来能获得的累计奖励的期望值。

状态估值的作用：以玩家当前在格子2为例，其下一步可以有上下左右四种策略，如何决定呢？就看移动到哪状态估值最小，假设我们计算出 > > ，那么下一步就会移动到

首先明确每个格子的动作转移规则（等概率选上下左右 4 个方向，出界则位置不变，出口估值为 0）：

由贝尔曼方程可以列出：

策略提升的核心定义是：基于当前策略的状态估值，找到一个新策略，使得新策略下每个状态的价值不低于原策略 。本题中即改变策略------从四个方向等概率改为贪心

贪心策略是选择能使下一个状态估值最大的动作（因为V(s)=−1+V(s′)，最大化V(s′)即最大化V(s)）：

（会不会有 "非贪心" 的最优策略？：不会。如果一个策略不是基于最优估值的贪心策略，那么它在某个状态下选择的动作价值不是最大的，这会导致该状态的价值低于最优估值，因此不可能是最优策略。）

最优策略通过贝尔曼最优方程求解（选能最大化V(s′)的动作）：

最优状态估值：V1∗=−1，V2∗=−2，V3∗=−1，V4∗=−2

首先明确每个格子的动作转移（等概率选 4 个方向，出界则位置不变，出口估值为 0），列贝尔曼期望方程组：

步骤 1：分析每个格子的动作转移

对每个格子，计算动作价值（q(s,a)=−1+V(s′)），选择价值最大的动作：

最优策略通过 "选择能最大化下一个状态价值的动作" 确定，贝尔曼最优方程为 V∗(s)=−1+maxaV∗(s′)：

V1∗=−1,V2∗=−2,V3∗=−1,V4∗=−3

（该题为PPT上的例子，实际考试中不可能考察这么复杂的例子，仅作为加深理解）

仅计算（1，2）和（1，1）作为说明，其余格子同理

动作：每个格子等概率选 "上下左右" 4 个方向（每个动作概率 = 1/4）；
奖励：
- 正常移动（没出界）：奖励 = 0；
- 出界（移动后超出 5×5 网格）：奖励 =-1，且回到当前格子；
- 特殊格子 A（1,2）：选任意方向都到 A'（5,2），奖励 =+10；
- 特殊格子 B（1,3）：选任意方向都到 B'，奖励 =+5；
折扣率：γ=0.9（未来奖励的衰减系数）；
贝尔曼方程（等概率策略）：V(s)=41∑a(ra+γ⋅V(sa′))（ra是动作a的奖励，sa′是动作a后的状态）。