紧接着贝尔曼最优方程以及压缩映射定理的内容,进一步证明贝尔曼最优方程右侧函数 f ( v ) f(v) f(v)的压缩性。
一、定理阐述
我们要用压缩映射定理证明贝尔曼最优方程(BOE)中右侧的函数 f ( v ) f(v) f(v) 是一个压缩映射。
f ( v ) f(v) f(v) 的压缩性质 :贝尔曼最优方程右侧的函数 f ( v ) f(v) f(v) 是一个压缩映射。具体来说,对于任意 v 1 , v 2 ∈ R ∣ S ∣ v_1, v_2 \in \mathbb{R}^{|\mathcal{S}|} v1,v2∈R∣S∣,有
∥ f ( v 1 ) − f ( v 2 ) ∥ ∞ ≤ γ ∥ v 1 − v 2 ∥ ∞ (1) \| f(v_1) - f(v_2) \|{\infty} \leq \gamma \| v_1 - v_2 \|{\infty} \tag{1} ∥f(v1)−f(v2)∥∞≤γ∥v1−v2∥∞(1)
其中 γ ∈ ( 0 , 1 ) \gamma \in (0, 1) γ∈(0,1) 是折扣率, ∥ ⋅ ∥ ∞ \| \cdot \|_{\infty} ∥⋅∥∞ 是无穷范数,即向量元素的最大绝对值。
该定理的证明在压缩映射定理中给出。这个定理很重要,因为我们可以用压缩映射定理来分析贝尔曼最优方程。
二、定理证明
考虑任意两个向量 v 1 , v 2 ∈ R ∣ S ∣ v_1, v_2 \in \mathbb{R}^{|\mathcal{S}|} v1,v2∈R∣S∣,假设 π 1 ∗ ≜ arg max π ( r π + γ P π v 1 ) \pi_1^* \triangleq \arg\max_{\pi} (r_{\pi} + \gamma P_{\pi} v_1) π1∗≜argmaxπ(rπ+γPπv1) 且 π 2 ∗ ≜ arg max π ( r π + γ P π v 2 ) \pi_2^* \triangleq \arg\max_{\pi} (r_{\pi} + \gamma P_{\pi} v_2) π2∗≜argmaxπ(rπ+γPπv2)。那么:
f ( v 1 ) = max π ( r π + γ P π v 1 ) = r π 1 ∗ + γ P π 1 ∗ v 1 ≥ r π 2 ∗ + γ P π 2 ∗ v 1 , f ( v 2 ) = max π ( r π + γ P π v 2 ) = r π 2 ∗ + γ P π 2 ∗ v 2 ≥ r π 1 ∗ + γ P π 1 ∗ v 2 \begin{align*} f(v_1) &= \max_{\pi} (r_{\pi} + \gamma P_{\pi} v_1) = r_{\pi_1^*} + \gamma P_{\pi_1^*} v_1 \geq r_{\pi_2^*} + \gamma P_{\pi_2^*} v_1, \\ f(v_2) &= \max_{\pi} (r_{\pi} + \gamma P_{\pi} v_2) = r_{\pi_2^*} + \gamma P_{\pi_2^*} v_2 \geq r_{\pi_1^*} + \gamma P_{\pi_1^*} v_2 \tag{2} \end{align*} f(v1)f(v2)=πmax(rπ+γPπv1)=rπ1∗+γPπ1∗v1≥rπ2∗+γPπ2∗v1,=πmax(rπ+γPπv2)=rπ2∗+γPπ2∗v2≥rπ1∗+γPπ1∗v2(2)
其中 ≥ \geq ≥ 是按元素比较。因此:
f ( v 1 ) − f ( v 2 ) = r π 1 ∗ + γ P π 1 ∗ v 1 − ( r π 2 ∗ + γ P π 2 ∗ v 2 ) ≤ r π 1 ∗ + γ P π 1 ∗ v 1 − ( r π 1 ∗ + γ P π 1 ∗ v 2 ) = γ P π 1 ∗ ( v 1 − v 2 ) \begin{align*} f(v_1) - f(v_2) &= r_{\pi_1^*} + \gamma P_{\pi_1^*} v_1 - (r_{\pi_2^*} + \gamma P_{\pi_2^*} v_2) \\ &\leq r_{\pi_1^*} + \gamma P_{\pi_1^*} v_1 - (r_{\pi_1^*} + \gamma P_{\pi_1^*} v_2) \\ &= \gamma P_{\pi_1^*} (v_1 - v_2) \tag{3} \end{align*} f(v1)−f(v2)=rπ1∗+γPπ1∗v1−(rπ2∗+γPπ2∗v2)≤rπ1∗+γPπ1∗v1−(rπ1∗+γPπ1∗v2)=γPπ1∗(v1−v2)(3)
类似地,可以证明 f ( v 2 ) − f ( v 1 ) ≤ γ P π 2 ∗ ( v 2 − v 1 ) f(v_2) - f(v_1) \leq \gamma P_{\pi_2^*} (v_2 - v_1) f(v2)−f(v1)≤γPπ2∗(v2−v1)。因此:
γ P π 2 ∗ ( v 1 − v 2 ) ≤ f ( v 1 ) − f ( v 2 ) ≤ γ P π 1 ∗ ( v 1 − v 2 ) (4) \gamma P_{\pi_2^*} (v_1 - v_2) \leq f(v_1) - f(v_2) \leq \gamma P_{\pi_1^*} (v_1 - v_2) \tag{4} γPπ2∗(v1−v2)≤f(v1)−f(v2)≤γPπ1∗(v1−v2)(4)
定义
z ≜ max { ∣ γ P π 2 ∗ ( v 1 − v 2 ) ∣ , ∣ γ P π 1 ∗ ( v 1 − v 2 ) ∣ } ∈ R ∣ S ∣ (5) z \triangleq \max \left\{ |\gamma P_{\pi_2^*} (v_1 - v_2)|, |\gamma P_{\pi_1^*} (v_1 - v_2)| \right\} \in \mathbb{R}^{|\mathcal{S}|} \tag{5} z≜max{∣γPπ2∗(v1−v2)∣,∣γPπ1∗(v1−v2)∣}∈R∣S∣(5)
其中 max ( ⋅ ) \max(\cdot) max(⋅)、 ∣ ⋅ ∣ | \cdot | ∣⋅∣ 和 ≥ \geq ≥ 都是按元素操作的算子。根据定义, z ≥ 0 z \geq 0 z≥0。一方面,由式(4)和(5)可以得出
− z ≤ γ P π 2 ∗ ( v 1 − v 2 ) ≤ f ( v 1 ) − f ( v 2 ) ≤ γ P π 1 ∗ ( v 1 − v 2 ) ≤ z (6) -z \leq \gamma P_{\pi_2^*} (v_1 - v_2) \leq f(v_1) - f(v_2) \leq \gamma P_{\pi_1^*} (v_1 - v_2) \leq z \tag{6} −z≤γPπ2∗(v1−v2)≤f(v1)−f(v2)≤γPπ1∗(v1−v2)≤z(6)
这意味着
∣ f ( v 1 ) − f ( v 2 ) ∣ ≤ z (7) | f(v_1) - f(v_2) | \leq z \tag{7} ∣f(v1)−f(v2)∣≤z(7)
由此可得
∥ f ( v 1 ) − f ( v 2 ) ∥ ∞ ≤ ∥ z ∥ ∞ (8) \| f(v_1) - f(v_2) \|{\infty} \leq \| z \|{\infty} \tag{8} ∥f(v1)−f(v2)∥∞≤∥z∥∞(8)
其中 ∥ ⋅ ∥ ∞ \| \cdot \|_{\infty} ∥⋅∥∞ 是无穷范数。
另一方面,假设 z i z_i zi 是 z z z 的第 i i i 个元素, p i T p_i^T piT 和 q i T q_i^T qiT 分别是 P π 1 ∗ P_{\pi_1^*} Pπ1∗ 和 P π 2 ∗ P_{\pi_2^*} Pπ2∗ 的第 i i i 行。那么:
z i = max { ∣ γ p i T ( v 1 − v 2 ) ∣ , ∣ γ q i T ( v 1 − v 2 ) ∣ } (9) z_i = \max \left\{ |\gamma p_i^T (v_1 - v_2)|, |\gamma q_i^T (v_1 - v_2)| \right\} \tag{9} zi=max{∣γpiT(v1−v2)∣,∣γqiT(v1−v2)∣}(9)
由于 p i p_i pi 是所有元素非负且元素和为1的行向量,因此有
∣ p i T ( v 1 − v 2 ) ∣ ≤ p i T ∣ v 1 − v 2 ∣ ≤ ∥ v 1 − v 2 ∥ ∞ (10) | p_i^T (v_1 - v_2) | \leq p_i^T |v_1 - v_2| \leq \| v_1 - v_2 \|_{\infty} \tag{10} ∣piT(v1−v2)∣≤piT∣v1−v2∣≤∥v1−v2∥∞(10)
类似地,我们有 ∣ q i T ( v 1 − v 2 ) ∣ ≤ ∥ v 1 − v 2 ∥ ∞ | q_i^T (v_1 - v_2) | \leq \| v_1 - v_2 \|{\infty} ∣qiT(v1−v2)∣≤∥v1−v2∥∞。因此, z i ≤ γ ∥ v 1 − v 2 ∥ ∞ z_i \leq \gamma \| v_1 - v_2 \|{\infty} zi≤γ∥v1−v2∥∞,进而
∥ z ∥ ∞ = max i ∣ z i ∣ ≤ γ ∥ v 1 − v 2 ∥ ∞ (11) \| z \|{\infty} = \max_i | z_i | \leq \gamma \| v_1 - v_2 \|{\infty} \tag{11} ∥z∥∞=imax∣zi∣≤γ∥v1−v2∥∞(11)
将这个不等式代入式(8)可得
∥ f ( v 1 ) − f ( v 2 ) ∥ ∞ ≤ γ ∥ v 1 − v 2 ∥ ∞ (12) \| f(v_1) - f(v_2) \|{\infty} \leq \gamma \| v_1 - v_2 \|{\infty} \tag{12} ∥f(v1)−f(v2)∥∞≤γ∥v1−v2∥∞(12)
这就完成了对 f ( v ) f(v) f(v) 压缩性质的证明。