《强化学习数学原理》学习笔记3——贝尔曼方程核心概念梳理

贝尔曼方程核心概念梳理

1. 状态价值(State Value)

v π ( s ) = E G t ∣ S t = s v_\pi(s) = \mathbb{E}G_t \| S_t = s vπ(s)=EGt∣St=s

解释:策略 π \pi π 下,当前处于状态 s s s 时,从该状态往后所有回报的期望。

2. 动作价值(Action Value)

q π ( s , a ) = E G t ∣ S t = s , A t = a q_\pi(s, a) = \mathbb{E}G_t \| S_t = s, A_t = a qπ(s,a)=EGt∣St=s,At=a

解释:策略 π \pi π 下,当前处于状态 s s s 且选动作 a a a 时,从该"状态 - 动作对"往后所有回报的期望。

3. 贝尔曼方程(元素形式)

v π ( s ) = ∑ a π ( a ∣ s ) ∑ r p ( r ∣ s , a ) r + γ ∑ s ′ p ( s ′ ∣ s , a ) v π ( s ′ ) = ∑ a π ( a ∣ s ) q π ( s , a ) \begin{align*} v_{\pi}(s) &= \sum_{a} \pi(a|s) \left \\sum_{r} p(r\|s,a)r + \\gamma \\sum_{s'} p(s'\|s,a)v_{\\pi}(s') \\right \\ &= \sum_{a} \pi(a|s) q_{\pi}(s, a) \end{align*} vπ(s)=a∑π(a∣s)r∑p(r∣s,a)r+γs′∑p(s′∣s,a)vπ(s′)=a∑π(a∣s)qπ(s,a)

解释:状态 s s s 的价值 = 该状态下各动作的选择概率 × 对应动作价值,再求和;而动作价值包含"即时回报期望 + 后续状态价值的折扣期望"。

4. 贝尔曼方程(矩阵 - 向量形式)

v π = r π + γ P π v π v_\pi = r_\pi + \gamma P_\pi v_\pi vπ=rπ+γPπvπ

解释:用矩阵、向量整体表示状态价值关系, v π v_\pi vπ 是状态价值向量, r π r_\pi rπ 关联回报, P π P_\pi Pπ 关联状态转移,体现状态价值与后续状态、即时回报的线性联系。

5. 贝尔曼方程的解法

解析解(Closed - form Solution):通过代数运算直接求精确的状态价值表达式。

迭代解(Iterative Solution):通过不断迭代更新,逐步逼近状态价值的准确值。

最后贴一下原书第2章最后的问答,对笔者很有帮助:

问题1:状态价值与回报之间有什么关系?

答:某一状态的价值是智能体从该状态出发所能获得的回报的均值。

问题2:我们为何关注状态价值?

答:状态价值可用于评估策略。事实上,最优策略是基于状态价值来定义的。这一点在下一章会更加清晰。

问题3:我们为何关注贝尔曼方程?

答:贝尔曼方程描述了所有状态价值之间的关系。它是分析状态价值的工具。

问题4:为何求解贝尔曼方程的过程被称为策略评估?

答:求解贝尔曼方程会得到状态价值。由于状态价值可用于评估一个策略,因此求解贝尔曼方程可被解读为对相应策略的评估。

问题5:我们为何需要研究贝尔曼方程的矩阵 - 向量形式?

答:贝尔曼方程涉及为所有状态建立的一组线性方程。为了求解状态价值,我们必须将所有线性方程整合起来。矩阵 - 向量形式是这些线性方程的简洁表达式。

问题6:状态价值与动作价值之间有什么关系?

答:一方面,一个状态的价值是该状态下各动作价值的均值。另一方面,一个动作的价值依赖于智能体在采取该动作后可能转移到的后续状态的价值。

问题7:我们为何关注给定策略无法选择的动作的价值?

答:尽管给定的策略无法选择某些动作,但这并不意味着这些动作不好。相反,有可能给定的策略并非良策,从而错失了最佳动作。为了找到更好的策略,我们必须持续探索不同的动作,即便其中一些动作可能不会被给定的策略所选择。

相关推荐
8Qi817 分钟前
LeetCode 516:最长回文子序列
算法·leetcode·职场和发展·动态规划
和平宇宙28 分钟前
AI笔记005. hermes-DeepSeek V4 Pro, 128K上下文引发的探索
前端·人工智能·笔记
十月的皮皮1 小时前
C语言学习笔记20260606- 求月份天数三种写法
c语言·笔记·学习
cmes_love1 小时前
Level 2逐笔成交历史数据下载方法笔记
数据库·笔记·oracle
马士兵教育1 小时前
Java还有前景吗?Java+AI大模型学习路线及项目?
java·人工智能·python·学习·机器学习
youngerwang1 小时前
【从搬运工到协处理器:网卡芯片架构、算法、验证与边缘演进深度剖析】
网络·算法·架构·芯片
KaMeidebaby2 小时前
卡梅德生物技术快报|纯化重组蛋白实操详解
人工智能·python·tcp/ip·算法·机器学习
Cloud_Shy6182 小时前
解读《Effective Python 3rd Edition》:从练气到老魔(第五章 Item 30 - 32)
开发语言·人工智能·笔记·python·学习方法
lizhihai_992 小时前
股市学习心得-AI 产业链核心标的梳理清单
大数据·服务器·人工智能·科技·学习