Q 值与状态值

在强化学习里,状态 - 动作值 一般指 Q 值(Q-value) ,全称是 状态 - 动作价值函数(State-Action Value Function),记作:

Q(s,a)


1. 直观含义

  • s:当前状态
  • a:在这个状态下采取的动作

Q(s,a) 表示:

状态 s 下,选择动作 a 之后,未来能获得的累积期望回报

简单说:

在这个状态下,做这个动作到底有多 "值"。


2. 与状态价值函数 V (s) 的区别

  • 状态价值 V(s):只看状态,不看动作

    表示 "在状态 s 下,我接下来按策略走,总体有多好"。

    V (s) 由 Q (s,a) 平均而来

    在策略 πππ 下:

    Vπ(s)=Ea∼π(⋅∣s)[Qπ(s,a)]=∑a∈Aπ(a∣s)Qπ(s,a)V_π(s)=\mathbb E_{a∼π(⋅∣s)}[Q_π(s,a)]=\sum_{a\in\mathcal{A}}\pi(a|s)Q_π(s,a)Vπ(s)=Ea∼π(⋅∣s)[Qπ(s,a)]=∑a∈Aπ(a∣s)Qπ(s,a)(这就是书上2.16式)

    即:

    状态价值 = 该状态下所有动作的 Q 值按策略概率加权平均

    在状态 s,策略会以不同概率选不同动作,

    V (s) 就是这些动作 Q 值的平均。

    作用:

    • 评价当前状态好坏

    • 做策略评估(policy evaluation)

    • 辅助计算优势函数 A (s,a) = Q (s,a) - V (s)

  • 状态 - 动作价值 Q(s,a):同时看状态 + 动作

    表示 "在状态 s 下,选动作 a 这件事本身有多好"。

    Q (s,a) 由 V (s') 递推而来

    Qπ(s,a)=E[r+γVπ(s′)]=∑r∈Rp(r∣s,a)r+γ∑s′∈Sp(s′∣s,a)vπ(s′)Q_π(s,a)=\mathbb E[r+γV_π(s′)]=\sum_{r\in\mathcal{R}}p(r|s,a)r+γ\sum_{s'\in\mathcal{S}}p(s'|s,a)v_\pi(s')Qπ(s,a)=E[r+γVπ(s′)]=∑r∈Rp(r∣s,a)r+γ∑s′∈Sp(s′∣s,a)vπ(s′)(这就是书上2.17式,书上更严谨)

    即:

    动作价值 = 即时奖励 + 下一状态的状态价值(折扣后)

    状态 - 动作值 Q(s,a) 就是:在当前状态下,选这个动作的长期收益打分。

    作用:

    • 直接选动作

      选 Q 值最大的动作就是最优策略

    • Q-learning、DQN、Sarsa 核心都是学 Q

    • 是强化学习中最常用、最实用的价值


3. 贝尔曼方程(核心公式)

状态 - 动作值满足递归关系:

Q(s,a)=E[r+γmax⁡a′Q(s′,a′)]Q(s,a)=\mathbb E[r+γ\max_{a′}Q(s′,a′)]Q(s,a)=E[r+γmaxa′Q(s′,a′)]

含义:

  • 立刻得到奖励 r
  • 加上折扣后的下一状态最优动作价值 γmaxQ(s′,a′)

贝尔曼方程:某个价值 = 即时奖励 + 折扣 × 下一个价值

对比项 V(s) 的贝尔曼方程 Q(s,a) 的贝尔曼方程
左边主体 状态 s(还没选动作) 状态 - 动作对 (s,a)(已经选了动作 a)
期望 E 的对象 动作 a下一状态 s′ 双重期望 只对下一状态 s′ 单重期望
动作 a 的角色 随机变量(由策略 π 决定) 确定值(已知、固定)
物理意义 状态 s 的平均未来价值 状态 s 下,选动作 a 这个具体选择的未来价值
与策略的关系 依赖策略 π(选动作的方式) 依赖策略 π(用于计算 V(s′)),但动作 a 独立于策略
相关推荐
AI算法沐枫3 小时前
深度学习python代码处理科研测序数据
数据结构·人工智能·python·深度学习·决策树·机器学习·线性回归
哥布林学者4 小时前
高光谱拼接算法(一)扫推式成像和航带拼接算法
机器学习·高光谱成像
malog_5 小时前
大语言模型后训练全解析
人工智能·深度学习·机器学习·ai·语言模型
枫叶林FYL6 小时前
【强化学习】3 双系统持续强化学习:快速迁移与元知识整合架构手册
人工智能·机器学习·架构
:mnong7 小时前
SHAP 自动解释成本构成分析报告
机器学习·shap
一切皆是因缘际会8 小时前
本源投影内生智能:从概率拟合到硅基生命的底层重构
人工智能·深度学习·机器学习·ai·重构
爱学习的徐徐9 小时前
监督学习核心算法:逻辑回归(Logistic Regression)
人工智能·机器学习·逻辑回归
人工智能培训10 小时前
中国人工智能培训网—AI系列录播课
大数据·人工智能·机器学习·计算机视觉·知识图谱
nebula-AI10 小时前
人工智能导论:模型与算法(未来发展与趋势)
人工智能·神经网络·算法·机器学习·量子计算·automl·类脑计算
忆~遂愿11 小时前
从文字应答到具象共情:Agent 交互的底层革新
人工智能·深度学习·目标检测·microsoft·机器学习·ar·交互