在强化学习里,状态 - 动作值 一般指 Q 值(Q-value) ,全称是 状态 - 动作价值函数(State-Action Value Function),记作:
Q(s,a)
1. 直观含义
- s:当前状态
- a:在这个状态下采取的动作
Q(s,a) 表示:
在状态 s 下,选择动作 a 之后,未来能获得的累积期望回报。
简单说:
在这个状态下,做这个动作到底有多 "值"。
2. 与状态价值函数 V (s) 的区别
-
状态价值 V(s):只看状态,不看动作
表示 "在状态 s 下,我接下来按策略走,总体有多好"。
V (s) 由 Q (s,a) 平均而来
在策略 πππ 下:
Vπ(s)=Ea∼π(⋅∣s)[Qπ(s,a)]=∑a∈Aπ(a∣s)Qπ(s,a)V_π(s)=\mathbb E_{a∼π(⋅∣s)}[Q_π(s,a)]=\sum_{a\in\mathcal{A}}\pi(a|s)Q_π(s,a)Vπ(s)=Ea∼π(⋅∣s)[Qπ(s,a)]=∑a∈Aπ(a∣s)Qπ(s,a)(这就是书上2.16式)
即:
状态价值 = 该状态下所有动作的 Q 值按策略概率加权平均
在状态 s,策略会以不同概率选不同动作,
V (s) 就是这些动作 Q 值的平均。
作用:
-
评价当前状态好坏
-
做策略评估(policy evaluation)
-
辅助计算优势函数 A (s,a) = Q (s,a) - V (s)
-
-
状态 - 动作价值 Q(s,a):同时看状态 + 动作
表示 "在状态 s 下,选动作 a 这件事本身有多好"。
Q (s,a) 由 V (s') 递推而来
Qπ(s,a)=E[r+γVπ(s′)]=∑r∈Rp(r∣s,a)r+γ∑s′∈Sp(s′∣s,a)vπ(s′)Q_π(s,a)=\mathbb E[r+γV_π(s′)]=\sum_{r\in\mathcal{R}}p(r|s,a)r+γ\sum_{s'\in\mathcal{S}}p(s'|s,a)v_\pi(s')Qπ(s,a)=E[r+γVπ(s′)]=∑r∈Rp(r∣s,a)r+γ∑s′∈Sp(s′∣s,a)vπ(s′)(这就是书上2.17式,书上更严谨)
即:
动作价值 = 即时奖励 + 下一状态的状态价值(折扣后)
状态 - 动作值 Q(s,a) 就是:在当前状态下,选这个动作的长期收益打分。
作用:
-
直接选动作
选 Q 值最大的动作就是最优策略
-
Q-learning、DQN、Sarsa 核心都是学 Q
-
是强化学习中最常用、最实用的价值
-
3. 贝尔曼方程(核心公式)
状态 - 动作值满足递归关系:
Q(s,a)=E[r+γmaxa′Q(s′,a′)]Q(s,a)=\mathbb E[r+γ\max_{a′}Q(s′,a′)]Q(s,a)=E[r+γmaxa′Q(s′,a′)]
含义:
- 立刻得到奖励 r
- 加上折扣后的下一状态最优动作价值 γmaxQ(s′,a′)
贝尔曼方程:某个价值 = 即时奖励 + 折扣 × 下一个价值
| 对比项 | V(s) 的贝尔曼方程 | Q(s,a) 的贝尔曼方程 |
|---|---|---|
| 左边主体 | 状态 s(还没选动作) | 状态 - 动作对 (s,a)(已经选了动作 a) |
| 期望 E 的对象 | 对动作 a 和 下一状态 s′ 双重期望 | 只对下一状态 s′ 单重期望 |
| 动作 a 的角色 | 随机变量(由策略 π 决定) | 确定值(已知、固定) |
| 物理意义 | 状态 s 的平均未来价值 | 状态 s 下,选动作 a 这个具体选择的未来价值 |
| 与策略的关系 | 依赖策略 π(选动作的方式) | 依赖策略 π(用于计算 V(s′)),但动作 a 独立于策略 |