Q 值与状态值

在强化学习里,状态 - 动作值 一般指 Q 值(Q-value) ,全称是 状态 - 动作价值函数(State-Action Value Function),记作:

Q(s,a)


1. 直观含义

  • s:当前状态
  • a:在这个状态下采取的动作

Q(s,a) 表示:

状态 s 下,选择动作 a 之后,未来能获得的累积期望回报

简单说:

在这个状态下,做这个动作到底有多 "值"。


2. 与状态价值函数 V (s) 的区别

  • 状态价值 V(s):只看状态,不看动作

    表示 "在状态 s 下,我接下来按策略走,总体有多好"。

    V (s) 由 Q (s,a) 平均而来

    在策略 πππ 下:

    Vπ(s)=Ea∼π(⋅∣s)Qπ(s,a)=∑a∈Aπ(a∣s)Qπ(s,a)V_π(s)=\mathbb E_{a∼π(⋅∣s)}Q_π(s,a)=\sum_{a\in\mathcal{A}}\pi(a|s)Q_π(s,a)Vπ(s)=Ea∼π(⋅∣s)Qπ(s,a)=∑a∈Aπ(a∣s)Qπ(s,a)(这就是书上2.16式)

    即:

    状态价值 = 该状态下所有动作的 Q 值按策略概率加权平均

    在状态 s,策略会以不同概率选不同动作,

    V (s) 就是这些动作 Q 值的平均。

    作用:

    • 评价当前状态好坏

    • 做策略评估(policy evaluation)

    • 辅助计算优势函数 A (s,a) = Q (s,a) - V (s)

  • 状态 - 动作价值 Q(s,a):同时看状态 + 动作

    表示 "在状态 s 下,选动作 a 这件事本身有多好"。

    Q (s,a) 由 V (s') 递推而来

    Qπ(s,a)=Er+γVπ(s′)=∑r∈Rp(r∣s,a)r+γ∑s′∈Sp(s′∣s,a)vπ(s′)Q_π(s,a)=\mathbb Er+γV_π(s′)=\sum_{r\in\mathcal{R}}p(r|s,a)r+γ\sum_{s'\in\mathcal{S}}p(s'|s,a)v_\pi(s')Qπ(s,a)=Er+γVπ(s′)=∑r∈Rp(r∣s,a)r+γ∑s′∈Sp(s′∣s,a)vπ(s′)(这就是书上2.17式,书上更严谨)

    即:

    动作价值 = 即时奖励 + 下一状态的状态价值(折扣后)

    状态 - 动作值 Q(s,a) 就是:在当前状态下,选这个动作的长期收益打分。

    作用:

    • 直接选动作

      选 Q 值最大的动作就是最优策略

    • Q-learning、DQN、Sarsa 核心都是学 Q

    • 是强化学习中最常用、最实用的价值


3. 贝尔曼方程(核心公式)

状态 - 动作值满足递归关系:

Q(s,a)=Er+γmax⁡a′Q(s′,a′)Q(s,a)=\mathbb Er+γ\\max_{a′}Q(s′,a′)Q(s,a)=Er+γmaxa′Q(s′,a′)

含义:

  • 立刻得到奖励 r
  • 加上折扣后的下一状态最优动作价值 γmaxQ(s′,a′)

贝尔曼方程:某个价值 = 即时奖励 + 折扣 × 下一个价值

对比项 V(s) 的贝尔曼方程 Q(s,a) 的贝尔曼方程
左边主体 状态 s(还没选动作) 状态 - 动作对 (s,a)(已经选了动作 a)
期望 E 的对象 动作 a下一状态 s′ 双重期望 只对下一状态 s′ 单重期望
动作 a 的角色 随机变量(由策略 π 决定) 确定值(已知、固定)
物理意义 状态 s 的平均未来价值 状态 s 下,选动作 a 这个具体选择的未来价值
与策略的关系 依赖策略 π(选动作的方式) 依赖策略 π(用于计算 V(s′)),但动作 a 独立于策略
相关推荐
万岳科技系统开发29 分钟前
外卖跑腿配送系统如何借助AI提升配送效率?
大数据·人工智能·机器学习
长夜多忧思1 小时前
机器学习_批量梯度下降法(BGD)
机器学习·批量梯度下降法
renhongxia11 小时前
原生多模态对应用架构的重塑
人工智能·深度学习·机器学习·自然语言处理·架构·机器人
金融小师妹2 小时前
人工智能推演框架:非农降温信号如何重构黄金定价模型
数据结构·人工智能·机器学习·transformer
2601_962344622 小时前
计算机毕业设计之基于大数据的投保数据的分析系统的设计与实现
大数据·人工智能·深度学习·机器学习·信息可视化·小程序·课程设计
星马梦缘3 小时前
机器学习与模式识别 第八章 MAP与偏方差 模拟卷及答案
人工智能·机器学习·map·岭回归·mle·双重下降
JackHCC4 小时前
自进化智能体协同进化综述
人工智能·机器学习
星马梦缘4 小时前
机器学习与模式识别 第十二章 自适应学习优化器 考点压缩
人工智能·机器学习·优化器·sgd·adam·rmsprop
qcx235 小时前
Agentic RAG不止能回答问题,已经能自动修复真实CVE漏洞了
人工智能·机器学习·ai·llm·脑信号
jaychouchannel5 小时前
RecursiveCharacterTextSplitter 中文切分隐形缺陷:重叠、断语义、列表割裂完整复现与修复
人工智能·机器学习