深度强化学习之123-概念梳理

马尔可夫决策过程(MDP)详解

马尔可夫决策过程 (Markov Decision Process, 简称 MDP)是强化学习的数学基础与核心框架。

它用来刻画"智能体(agent)在与环境交互过程中如何决策"的完整数学模型。


1. MDP 的形式化定义

一个 MDP 可以表示为一个五元组:
(S,A,P,R,γ) (\mathcal{S}, \mathcal{A}, P, R, \gamma) (S,A,P,R,γ)

其中:

  • S\mathcal{S}S:状态空间(State space)
  • A\mathcal{A}A:动作空间(Action space)
  • P(s′∣s,a)P(s'|s,a)P(s′∣s,a):状态转移概率(Transition probability)
  • R(s,a)R(s,a)R(s,a):奖励函数(Reward function)
  • γ∈[0,1]\gamma \in [0,1]γ∈[0,1]:折扣因子(Discount factor)

2. 轨迹与概率

当智能体遵循策略 π\piπ 行动时,会产生一条轨迹(或称"一个 episode"):
τ=(s1,a1,r1,s2,a2,r2,...,sT) \tau = (s_1, a_1, r_1, s_2, a_2, r_2, \dots, s_T) τ=(s1,a1,r1,s2,a2,r2,...,sT)

这条轨迹在策略 π\piπ 下的概率为:
P(τ∣π)=p(s1)∏t=1Tπ(at∣st)P(st+1∣st,at) P(\tau|\pi) = p(s_1) \prod_{t=1}^T \pi(a_t|s_t) P(s_{t+1}|s_t,a_t) P(τ∣π)=p(s1)t=1∏Tπ(at∣st)P(st+1∣st,at)

  • p(s1)p(s_1)p(s1):初始状态分布
  • π(at∣st)\pi(a_t|s_t)π(at∣st):策略产生动作的概率
  • P(st+1∣st,at)P(s_{t+1}|s_t,a_t)P(st+1∣st,at):状态转移概率

3. MDP 的组成部分

✅ 状态(State)

状态表示环境在某一时刻的完整信息。

例如在马里奥游戏中,一帧或几帧游戏画面就可以构成状态。

有时我们只能观察到部分状态(partial observation)。

✅ 动作(Action)

动作定义了智能体如何与环境交互。

例如在马里奥中,动作可以是「上、下、左、右」。

所有动作的集合构成动作空间。

✅ 奖励(Reward)

奖励是智能体从环境中获得的反馈信号, 马里奥里面吃金币, 打怪, 最终胜利都是奖励。

合理设计奖励函数是强化学习的关键,它会直接影响学习结果。

✅ 状态转移(State Transition)

状态转移描述了在采取动作 aaa 后,环境从状态 sss 转移到 s′s's′ 的过程:
P(s′∣s,a) P(s'|s,a) P(s′∣s,a)

这种转移可以是随机的(如随机环境),也可以是确定的(如棋类游戏)。


4. 策略(Policy)

策略 π\piπ 定义了智能体在状态下的行动方式,是状态到动作的映射。

强化学习的目标就是找到一个最优策略 π∗\pi^*π∗,以最大化长期期望回报。

  • 确定性策略(Deterministic)
    a=π(s) a = \pi(s) a=π(s)

  • 随机策略(Stochastic)
    π(a∣s)=P(at=a∣st=s) \pi(a|s) = P(a_t = a | s_t = s) π(a∣s)=P(at=a∣st=s)


5. 随机性(Stochasticity)

强化学习中最大的挑战之一就是环境与策略的随机性。

  • 环境转移可能是随机的;
  • 策略选择动作可能是随机的;
  • 奖励也可能带有噪声。

这会导致训练过程难以完全可控,也增加了策略收敛的难度。


6. 回报与折扣回报(Return & Discounted Return)

回报(Return) 表示从某个时间步 ttt 开始后续累计获得的奖励:
Gt=rt+1+rt+2+⋯=∑k=0∞rt+k+1 G_t = r_{t+1} + r_{t+2} + \cdots = \sum_{k=0}^{\infty} r_{t+k+1} Gt=rt+1+rt+2+⋯=k=0∑∞rt+k+1

为了强调短期奖励并保证收敛,我们引入 折扣因子 γ\gammaγ
Gt=∑k=0∞γkrt+k+1 G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1} Gt=k=0∑∞γkrt+k+1

其中 0≤γ<10 \leq \gamma < 10≤γ<1。


7. 价值函数(Value Function)

价值函数衡量一个状态(或状态-动作对)在长期回报上的"好坏"。

  • 状态价值函数(State Value Function)

Vπ(s)=Eπ[Gt∣St=s] V_\pi(s) = \mathbb{E}_\pi [ G_t \mid S_t = s ] Vπ(s)=Eπ[Gt∣St=s]

  • 动作价值函数(Action Value Function, Q 函数)

Qπ(s,a)=Eπ[Gt∣St=s,At=a] Q_\pi(s,a) = \mathbb{E}_\pi [ G_t \mid S_t = s, A_t = a ] Qπ(s,a)=Eπ[Gt∣St=s,At=a]

  • 最优价值函数(Optimal Value Functions)

V∗(s)=max⁡πVπ(s),Q∗(s,a)=max⁡πQπ(s,a) V^*(s) = \max_\pi V_\pi(s), \quad Q^*(s,a) = \max_\pi Q_\pi(s,a) V∗(s)=πmaxVπ(s),Q∗(s,a)=πmaxQπ(s,a)

学习准确的价值函数有助于智能体判断哪种状态或动作更优,从而指导策略改进。


8. 强化学习的目标

强化学习的最终目标就是找到一个最优策略 π∗\pi^*π∗,使得期望折扣回报最大化:
π∗=arg⁡max⁡πEτ∼P(τ∣π)[∑t=1Tγt−1rt] \pi^* = \arg\max_\pi \mathbb{E}{\tau \sim P(\tau|\pi)} \left[ \sum{t=1}^{T} \gamma^{t-1} r_t \right] π∗=argπmaxEτ∼P(τ∣π)[t=1∑Tγt−1rt]

这也是大多数强化学习算法(如 Q-learning、Policy Gradient、Actor-Critic 等)的核心优化目标。


✅ 总结

  • MDP 是强化学习的数学框架。
  • 它通过 状态动作奖励转移策略 来描述整个交互过程。
  • 回报与价值函数是评价策略好坏的核心工具。
  • 强化学习的本质就是通过优化策略 π\piπ 来最大化期望折扣回报 J(π)J(\pi)J(π)。
相关推荐
亚马逊云开发者5 分钟前
Q CLI 助力合合信息实现 Aurora 的升级运营
人工智能
全栈胖叔叔-瓜州1 小时前
关于llamasharp 大模型多轮对话,模型对话无法终止,或者输出角色标识User:,或者System等角色标识问题。
前端·人工智能
坚果派·白晓明1 小时前
AI驱动的命令行工具集x-cmd鸿蒙化适配后通过DevBox安装使用
人工智能·华为·harmonyos
GISer_Jing1 小时前
前端营销技术实战:数据+AI实战指南
前端·javascript·人工智能
Dekesas96952 小时前
【深度学习】基于Faster R-CNN的黄瓜幼苗智能识别与定位系统,农业AI新突破
人工智能·深度学习·r语言
大佐不会说日语~2 小时前
Spring AI Alibaba 的 ChatClient 工具注册与 Function Calling 实践
人工智能·spring boot·python·spring·封装·spring ai
CeshirenTester2 小时前
Playwright元素定位详解:8种定位策略实战指南
人工智能·功能测试·程序人生·单元测试·自动化
世岩清上3 小时前
AI驱动的智能运维:从自动化到自主化的技术演进与架构革新
运维·人工智能·自动化
K2_BPM3 小时前
告别“单点智能”:AI Agent如何重构企业生产力与流程?
人工智能
TMT星球3 小时前
深业云从人工智能产业投资基金设立,聚焦AI和具身智能相关产业
人工智能