《强化学习数学原理》学习笔记6——贝尔曼最优方程的压缩性质

紧接着贝尔曼最优方程以及压缩映射定理的内容，进一步证明贝尔曼最优方程右侧函数 f ( v ) f(v) f(v)的压缩性。

一、定理阐述

我们要用压缩映射定理证明贝尔曼最优方程（BOE）中右侧的函数 f ( v ) f(v) f(v) 是一个压缩映射。

f ( v ) f(v) f(v) 的压缩性质 ：贝尔曼最优方程右侧的函数 f ( v ) f(v) f(v) 是一个压缩映射。具体来说，对于任意 v 1 , v 2 ∈ R ∣ S ∣ v_1, v_2 \in \mathbb{R}^{|\mathcal{S}|} v1,v2∈R∣S∣，有
∥ f ( v 1 ) − f ( v 2 ) ∥ ∞ ≤ γ ∥ v 1 − v 2 ∥ ∞ (1) \| f(v_1) - f(v_2) \|{\infty} \leq \gamma \| v_1 - v_2 \|{\infty} \tag{1} ∥f(v1)−f(v2)∥∞≤γ∥v1−v2∥∞(1)

其中 γ ∈ ( 0 , 1 ) \gamma \in (0, 1) γ∈(0,1) 是折扣率， ∥ ⋅ ∥ ∞ \| \cdot \|_{\infty} ∥⋅∥∞ 是无穷范数，即向量元素的最大绝对值。

该定理的证明在压缩映射定理中给出。这个定理很重要，因为我们可以用压缩映射定理来分析贝尔曼最优方程。

二、定理证明

考虑任意两个向量 v 1 , v 2 ∈ R ∣ S ∣ v_1, v_2 \in \mathbb{R}^{|\mathcal{S}|} v1,v2∈R∣S∣，假设 π 1 ∗ ≜ arg ⁡ max ⁡ π ( r π + γ P π v 1 ) \pi_1^* \triangleq \arg\max_{\pi} (r_{\pi} + \gamma P_{\pi} v_1) π1∗≜argmaxπ(rπ+γPπv1) 且 π 2 ∗ ≜ arg ⁡ max ⁡ π ( r π + γ P π v 2 ) \pi_2^* \triangleq \arg\max_{\pi} (r_{\pi} + \gamma P_{\pi} v_2) π2∗≜argmaxπ(rπ+γPπv2)。那么：
f ( v 1 ) = max ⁡ π ( r π + γ P π v 1 ) = r π 1 ∗ + γ P π 1 ∗ v 1 ≥ r π 2 ∗ + γ P π 2 ∗ v 1 , f ( v 2 ) = max ⁡ π ( r π + γ P π v 2 ) = r π 2 ∗ + γ P π 2 ∗ v 2 ≥ r π 1 ∗ + γ P π 1 ∗ v 2 \begin{align*} f(v_1) &= \max_{\pi} (r_{\pi} + \gamma P_{\pi} v_1) = r_{\pi_1^*} + \gamma P_{\pi_1^*} v_1 \geq r_{\pi_2^*} + \gamma P_{\pi_2^*} v_1, \\ f(v_2) &= \max_{\pi} (r_{\pi} + \gamma P_{\pi} v_2) = r_{\pi_2^*} + \gamma P_{\pi_2^*} v_2 \geq r_{\pi_1^*} + \gamma P_{\pi_1^*} v_2 \tag{2} \end{align*} f(v1)f(v2)=πmax(rπ+γPπv1)=rπ1∗+γPπ1∗v1≥rπ2∗+γPπ2∗v1,=πmax(rπ+γPπv2)=rπ2∗+γPπ2∗v2≥rπ1∗+γPπ1∗v2(2)

其中 ≥ \geq ≥ 是按元素比较。因此：
f ( v 1 ) − f ( v 2 ) = r π 1 ∗ + γ P π 1 ∗ v 1 − ( r π 2 ∗ + γ P π 2 ∗ v 2 ) ≤ r π 1 ∗ + γ P π 1 ∗ v 1 − ( r π 1 ∗ + γ P π 1 ∗ v 2 ) = γ P π 1 ∗ ( v 1 − v 2 ) \begin{align*} f(v_1) - f(v_2) &= r_{\pi_1^*} + \gamma P_{\pi_1^*} v_1 - (r_{\pi_2^*} + \gamma P_{\pi_2^*} v_2) \\ &\leq r_{\pi_1^*} + \gamma P_{\pi_1^*} v_1 - (r_{\pi_1^*} + \gamma P_{\pi_1^*} v_2) \\ &= \gamma P_{\pi_1^*} (v_1 - v_2) \tag{3} \end{align*} f(v1)−f(v2)=rπ1∗+γPπ1∗v1−(rπ2∗+γPπ2∗v2)≤rπ1∗+γPπ1∗v1−(rπ1∗+γPπ1∗v2)=γPπ1∗(v1−v2)(3)

类似地，可以证明 f ( v 2 ) − f ( v 1 ) ≤ γ P π 2 ∗ ( v 2 − v 1 ) f(v_2) - f(v_1) \leq \gamma P_{\pi_2^*} (v_2 - v_1) f(v2)−f(v1)≤γPπ2∗(v2−v1)。因此：
γ P π 2 ∗ ( v 1 − v 2 ) ≤ f ( v 1 ) − f ( v 2 ) ≤ γ P π 1 ∗ ( v 1 − v 2 ) (4) \gamma P_{\pi_2^*} (v_1 - v_2) \leq f(v_1) - f(v_2) \leq \gamma P_{\pi_1^*} (v_1 - v_2) \tag{4} γPπ2∗(v1−v2)≤f(v1)−f(v2)≤γPπ1∗(v1−v2)(4)

定义
z ≜ max ⁡ { ∣ γ P π 2 ∗ ( v 1 − v 2 ) ∣ , ∣ γ P π 1 ∗ ( v 1 − v 2 ) ∣ } ∈ R ∣ S ∣ (5) z \triangleq \max \left\{ |\gamma P_{\pi_2^*} (v_1 - v_2)|, |\gamma P_{\pi_1^*} (v_1 - v_2)| \right\} \in \mathbb{R}^{|\mathcal{S}|} \tag{5} z≜max{∣γPπ2∗(v1−v2)∣,∣γPπ1∗(v1−v2)∣}∈R∣S∣(5)

其中 max ⁡ ( ⋅ ) \max(\cdot) max(⋅)、 ∣ ⋅ ∣ | \cdot | ∣⋅∣ 和 ≥ \geq ≥ 都是按元素操作的算子。根据定义， z ≥ 0 z \geq 0 z≥0。一方面，由式（4）和（5）可以得出
− z ≤ γ P π 2 ∗ ( v 1 − v 2 ) ≤ f ( v 1 ) − f ( v 2 ) ≤ γ P π 1 ∗ ( v 1 − v 2 ) ≤ z (6) -z \leq \gamma P_{\pi_2^*} (v_1 - v_2) \leq f(v_1) - f(v_2) \leq \gamma P_{\pi_1^*} (v_1 - v_2) \leq z \tag{6} −z≤γPπ2∗(v1−v2)≤f(v1)−f(v2)≤γPπ1∗(v1−v2)≤z(6)

这意味着
∣ f ( v 1 ) − f ( v 2 ) ∣ ≤ z (7) | f(v_1) - f(v_2) | \leq z \tag{7} ∣f(v1)−f(v2)∣≤z(7)

由此可得
∥ f ( v 1 ) − f ( v 2 ) ∥ ∞ ≤ ∥ z ∥ ∞ (8) \| f(v_1) - f(v_2) \|{\infty} \leq \| z \|{\infty} \tag{8} ∥f(v1)−f(v2)∥∞≤∥z∥∞(8)

其中 ∥ ⋅ ∥ ∞ \| \cdot \|_{\infty} ∥⋅∥∞ 是无穷范数。

另一方面，假设 z i z_i zi 是 z z z 的第 i i i 个元素， p i T p_i^T piT 和 q i T q_i^T qiT 分别是 P π 1 ∗ P_{\pi_1^*} Pπ1∗ 和 P π 2 ∗ P_{\pi_2^*} Pπ2∗ 的第 i i i 行。那么：
z i = max ⁡ { ∣ γ p i T ( v 1 − v 2 ) ∣ , ∣ γ q i T ( v 1 − v 2 ) ∣ } (9) z_i = \max \left\{ |\gamma p_i^T (v_1 - v_2)|, |\gamma q_i^T (v_1 - v_2)| \right\} \tag{9} zi=max{∣γpiT(v1−v2)∣,∣γqiT(v1−v2)∣}(9)

由于 p i p_i pi 是所有元素非负且元素和为1的行向量，因此有
∣ p i T ( v 1 − v 2 ) ∣ ≤ p i T ∣ v 1 − v 2 ∣ ≤ ∥ v 1 − v 2 ∥ ∞ (10) | p_i^T (v_1 - v_2) | \leq p_i^T |v_1 - v_2| \leq \| v_1 - v_2 \|_{\infty} \tag{10} ∣piT(v1−v2)∣≤piT∣v1−v2∣≤∥v1−v2∥∞(10)

类似地，我们有 ∣ q i T ( v 1 − v 2 ) ∣ ≤ ∥ v 1 − v 2 ∥ ∞ | q_i^T (v_1 - v_2) | \leq \| v_1 - v_2 \|{\infty} ∣qiT(v1−v2)∣≤∥v1−v2∥∞。因此， z i ≤ γ ∥ v 1 − v 2 ∥ ∞ z_i \leq \gamma \| v_1 - v_2 \|{\infty} zi≤γ∥v1−v2∥∞，进而
∥ z ∥ ∞ = max ⁡ i ∣ z i ∣ ≤ γ ∥ v 1 − v 2 ∥ ∞ (11) \| z \|{\infty} = \max_i | z_i | \leq \gamma \| v_1 - v_2 \|{\infty} \tag{11} ∥z∥∞=imax∣zi∣≤γ∥v1−v2∥∞(11)

将这个不等式代入式（8）可得
∥ f ( v 1 ) − f ( v 2 ) ∥ ∞ ≤ γ ∥ v 1 − v 2 ∥ ∞ (12) \| f(v_1) - f(v_2) \|{\infty} \leq \gamma \| v_1 - v_2 \|{\infty} \tag{12} ∥f(v1)−f(v2)∥∞≤γ∥v1−v2∥∞(12)

这就完成了对 f ( v ) f(v) f(v) 压缩性质的证明。