《强化学习数学原理》学习笔记6——贝尔曼最优方程的压缩性质

紧接着贝尔曼最优方程以及压缩映射定理的内容,进一步证明贝尔曼最优方程右侧函数 f ( v ) f(v) f(v)的压缩性。

一、定理阐述

我们要用压缩映射定理证明贝尔曼最优方程(BOE)中右侧的函数 f ( v ) f(v) f(v) 是一个压缩映射。

f ( v ) f(v) f(v) 的压缩性质 :贝尔曼最优方程右侧的函数 f ( v ) f(v) f(v) 是一个压缩映射。具体来说,对于任意 v 1 , v 2 ∈ R ∣ S ∣ v_1, v_2 \in \mathbb{R}^{|\mathcal{S}|} v1,v2∈R∣S∣,有
∥ f ( v 1 ) − f ( v 2 ) ∥ ∞ ≤ γ ∥ v 1 − v 2 ∥ ∞ (1) \| f(v_1) - f(v_2) \|{\infty} \leq \gamma \| v_1 - v_2 \|{\infty} \tag{1} ∥f(v1)−f(v2)∥∞≤γ∥v1−v2∥∞(1)

其中 γ ∈ ( 0 , 1 ) \gamma \in (0, 1) γ∈(0,1) 是折扣率, ∥ ⋅ ∥ ∞ \| \cdot \|_{\infty} ∥⋅∥∞ 是无穷范数,即向量元素的最大绝对值。

该定理的证明在压缩映射定理中给出。这个定理很重要,因为我们可以用压缩映射定理来分析贝尔曼最优方程。

二、定理证明

考虑任意两个向量 v 1 , v 2 ∈ R ∣ S ∣ v_1, v_2 \in \mathbb{R}^{|\mathcal{S}|} v1,v2∈R∣S∣,假设 π 1 ∗ ≜ arg ⁡ max ⁡ π ( r π + γ P π v 1 ) \pi_1^* \triangleq \arg\max_{\pi} (r_{\pi} + \gamma P_{\pi} v_1) π1∗≜argmaxπ(rπ+γPπv1) 且 π 2 ∗ ≜ arg ⁡ max ⁡ π ( r π + γ P π v 2 ) \pi_2^* \triangleq \arg\max_{\pi} (r_{\pi} + \gamma P_{\pi} v_2) π2∗≜argmaxπ(rπ+γPπv2)。那么:
f ( v 1 ) = max ⁡ π ( r π + γ P π v 1 ) = r π 1 ∗ + γ P π 1 ∗ v 1 ≥ r π 2 ∗ + γ P π 2 ∗ v 1 , f ( v 2 ) = max ⁡ π ( r π + γ P π v 2 ) = r π 2 ∗ + γ P π 2 ∗ v 2 ≥ r π 1 ∗ + γ P π 1 ∗ v 2 \begin{align*} f(v_1) &= \max_{\pi} (r_{\pi} + \gamma P_{\pi} v_1) = r_{\pi_1^*} + \gamma P_{\pi_1^*} v_1 \geq r_{\pi_2^*} + \gamma P_{\pi_2^*} v_1, \\ f(v_2) &= \max_{\pi} (r_{\pi} + \gamma P_{\pi} v_2) = r_{\pi_2^*} + \gamma P_{\pi_2^*} v_2 \geq r_{\pi_1^*} + \gamma P_{\pi_1^*} v_2 \tag{2} \end{align*} f(v1)f(v2)=πmax(rπ+γPπv1)=rπ1∗+γPπ1∗v1≥rπ2∗+γPπ2∗v1,=πmax(rπ+γPπv2)=rπ2∗+γPπ2∗v2≥rπ1∗+γPπ1∗v2(2)

其中 ≥ \geq ≥ 是按元素比较。因此:
f ( v 1 ) − f ( v 2 ) = r π 1 ∗ + γ P π 1 ∗ v 1 − ( r π 2 ∗ + γ P π 2 ∗ v 2 ) ≤ r π 1 ∗ + γ P π 1 ∗ v 1 − ( r π 1 ∗ + γ P π 1 ∗ v 2 ) = γ P π 1 ∗ ( v 1 − v 2 ) \begin{align*} f(v_1) - f(v_2) &= r_{\pi_1^*} + \gamma P_{\pi_1^*} v_1 - (r_{\pi_2^*} + \gamma P_{\pi_2^*} v_2) \\ &\leq r_{\pi_1^*} + \gamma P_{\pi_1^*} v_1 - (r_{\pi_1^*} + \gamma P_{\pi_1^*} v_2) \\ &= \gamma P_{\pi_1^*} (v_1 - v_2) \tag{3} \end{align*} f(v1)−f(v2)=rπ1∗+γPπ1∗v1−(rπ2∗+γPπ2∗v2)≤rπ1∗+γPπ1∗v1−(rπ1∗+γPπ1∗v2)=γPπ1∗(v1−v2)(3)

类似地,可以证明 f ( v 2 ) − f ( v 1 ) ≤ γ P π 2 ∗ ( v 2 − v 1 ) f(v_2) - f(v_1) \leq \gamma P_{\pi_2^*} (v_2 - v_1) f(v2)−f(v1)≤γPπ2∗(v2−v1)。因此:
γ P π 2 ∗ ( v 1 − v 2 ) ≤ f ( v 1 ) − f ( v 2 ) ≤ γ P π 1 ∗ ( v 1 − v 2 ) (4) \gamma P_{\pi_2^*} (v_1 - v_2) \leq f(v_1) - f(v_2) \leq \gamma P_{\pi_1^*} (v_1 - v_2) \tag{4} γPπ2∗(v1−v2)≤f(v1)−f(v2)≤γPπ1∗(v1−v2)(4)

定义
z ≜ max ⁡ { ∣ γ P π 2 ∗ ( v 1 − v 2 ) ∣ , ∣ γ P π 1 ∗ ( v 1 − v 2 ) ∣ } ∈ R ∣ S ∣ (5) z \triangleq \max \left\{ |\gamma P_{\pi_2^*} (v_1 - v_2)|, |\gamma P_{\pi_1^*} (v_1 - v_2)| \right\} \in \mathbb{R}^{|\mathcal{S}|} \tag{5} z≜max{∣γPπ2∗(v1−v2)∣,∣γPπ1∗(v1−v2)∣}∈R∣S∣(5)

其中 max ⁡ ( ⋅ ) \max(\cdot) max(⋅)、 ∣ ⋅ ∣ | \cdot | ∣⋅∣ 和 ≥ \geq ≥ 都是按元素操作的算子。根据定义, z ≥ 0 z \geq 0 z≥0。一方面,由式(4)和(5)可以得出
− z ≤ γ P π 2 ∗ ( v 1 − v 2 ) ≤ f ( v 1 ) − f ( v 2 ) ≤ γ P π 1 ∗ ( v 1 − v 2 ) ≤ z (6) -z \leq \gamma P_{\pi_2^*} (v_1 - v_2) \leq f(v_1) - f(v_2) \leq \gamma P_{\pi_1^*} (v_1 - v_2) \leq z \tag{6} −z≤γPπ2∗(v1−v2)≤f(v1)−f(v2)≤γPπ1∗(v1−v2)≤z(6)

这意味着
∣ f ( v 1 ) − f ( v 2 ) ∣ ≤ z (7) | f(v_1) - f(v_2) | \leq z \tag{7} ∣f(v1)−f(v2)∣≤z(7)

由此可得
∥ f ( v 1 ) − f ( v 2 ) ∥ ∞ ≤ ∥ z ∥ ∞ (8) \| f(v_1) - f(v_2) \|{\infty} \leq \| z \|{\infty} \tag{8} ∥f(v1)−f(v2)∥∞≤∥z∥∞(8)

其中 ∥ ⋅ ∥ ∞ \| \cdot \|_{\infty} ∥⋅∥∞ 是无穷范数。

另一方面,假设 z i z_i zi 是 z z z 的第 i i i 个元素, p i T p_i^T piT 和 q i T q_i^T qiT 分别是 P π 1 ∗ P_{\pi_1^*} Pπ1∗ 和 P π 2 ∗ P_{\pi_2^*} Pπ2∗ 的第 i i i 行。那么:
z i = max ⁡ { ∣ γ p i T ( v 1 − v 2 ) ∣ , ∣ γ q i T ( v 1 − v 2 ) ∣ } (9) z_i = \max \left\{ |\gamma p_i^T (v_1 - v_2)|, |\gamma q_i^T (v_1 - v_2)| \right\} \tag{9} zi=max{∣γpiT(v1−v2)∣,∣γqiT(v1−v2)∣}(9)

由于 p i p_i pi 是所有元素非负且元素和为1的行向量,因此有
∣ p i T ( v 1 − v 2 ) ∣ ≤ p i T ∣ v 1 − v 2 ∣ ≤ ∥ v 1 − v 2 ∥ ∞ (10) | p_i^T (v_1 - v_2) | \leq p_i^T |v_1 - v_2| \leq \| v_1 - v_2 \|_{\infty} \tag{10} ∣piT(v1−v2)∣≤piT∣v1−v2∣≤∥v1−v2∥∞(10)

类似地,我们有 ∣ q i T ( v 1 − v 2 ) ∣ ≤ ∥ v 1 − v 2 ∥ ∞ | q_i^T (v_1 - v_2) | \leq \| v_1 - v_2 \|{\infty} ∣qiT(v1−v2)∣≤∥v1−v2∥∞。因此, z i ≤ γ ∥ v 1 − v 2 ∥ ∞ z_i \leq \gamma \| v_1 - v_2 \|{\infty} zi≤γ∥v1−v2∥∞,进而
∥ z ∥ ∞ = max ⁡ i ∣ z i ∣ ≤ γ ∥ v 1 − v 2 ∥ ∞ (11) \| z \|{\infty} = \max_i | z_i | \leq \gamma \| v_1 - v_2 \|{\infty} \tag{11} ∥z∥∞=imax∣zi∣≤γ∥v1−v2∥∞(11)

将这个不等式代入式(8)可得
∥ f ( v 1 ) − f ( v 2 ) ∥ ∞ ≤ γ ∥ v 1 − v 2 ∥ ∞ (12) \| f(v_1) - f(v_2) \|{\infty} \leq \gamma \| v_1 - v_2 \|{\infty} \tag{12} ∥f(v1)−f(v2)∥∞≤γ∥v1−v2∥∞(12)

这就完成了对 f ( v ) f(v) f(v) 压缩性质的证明。

相关推荐
悠哉悠哉愿意3 小时前
【ROS2学习笔记】话题通信篇:话题通信项目实践——系统状态监测与可视化工具
笔记·学习·ros2
hssfscv3 小时前
JAVA学习笔记——9道综合练习习题+二维数组
java·笔记·学习
charlie1145141916 小时前
精读 C++20 设计模式:行为型设计模式 — 访问者模式
c++·学习·设计模式·访问者模式·c++20
长路归期无望7 小时前
C语言小白实现多功能计算器的艰难历程
c语言·开发语言·数据结构·笔记·学习·算法
知识分享小能手7 小时前
微信小程序入门学习教程,从入门到精通,微信小程序常用API(上)——知识点详解 + 案例实战(4)
前端·javascript·学习·微信小程序·小程序·html5·微信开放平台
yuxb739 小时前
Ceph 分布式存储学习笔记(二):池管理、认证和授权管理与集群配置(下)
笔记·ceph·学习
悠哉悠哉愿意9 小时前
【ROS2学习笔记】话题通信篇:python话题订阅与发布
笔记·学习·ros2
bruk_spp9 小时前
从pty驱动学习tty设备驱动加载
linux·学习
东方芷兰10 小时前
JavaWeb 课堂笔记 —— 20 SpringBootWeb案例 配置文件
java·开发语言·笔记·算法·log4j·intellij-idea·lua