深度强化学习之123-概念梳理

马尔可夫决策过程(MDP)详解

马尔可夫决策过程 (Markov Decision Process, 简称 MDP)是强化学习的数学基础与核心框架。

它用来刻画"智能体(agent)在与环境交互过程中如何决策"的完整数学模型。


1. MDP 的形式化定义

一个 MDP 可以表示为一个五元组:
(S,A,P,R,γ) (\mathcal{S}, \mathcal{A}, P, R, \gamma) (S,A,P,R,γ)

其中:

  • S\mathcal{S}S:状态空间(State space)
  • A\mathcal{A}A:动作空间(Action space)
  • P(s′∣s,a)P(s'|s,a)P(s′∣s,a):状态转移概率(Transition probability)
  • R(s,a)R(s,a)R(s,a):奖励函数(Reward function)
  • γ∈0,1\gamma \in 0,1γ∈0,1:折扣因子(Discount factor)

2. 轨迹与概率

当智能体遵循策略 π\piπ 行动时,会产生一条轨迹(或称"一个 episode"):
τ=(s1,a1,r1,s2,a2,r2,...,sT) \tau = (s_1, a_1, r_1, s_2, a_2, r_2, \dots, s_T) τ=(s1,a1,r1,s2,a2,r2,...,sT)

这条轨迹在策略 π\piπ 下的概率为:
P(τ∣π)=p(s1)∏t=1Tπ(at∣st)P(st+1∣st,at) P(\tau|\pi) = p(s_1) \prod_{t=1}^T \pi(a_t|s_t) P(s_{t+1}|s_t,a_t) P(τ∣π)=p(s1)t=1∏Tπ(at∣st)P(st+1∣st,at)

  • p(s1)p(s_1)p(s1):初始状态分布
  • π(at∣st)\pi(a_t|s_t)π(at∣st):策略产生动作的概率
  • P(st+1∣st,at)P(s_{t+1}|s_t,a_t)P(st+1∣st,at):状态转移概率

3. MDP 的组成部分

✅ 状态(State)

状态表示环境在某一时刻的完整信息。

例如在马里奥游戏中,一帧或几帧游戏画面就可以构成状态。

有时我们只能观察到部分状态(partial observation)。

✅ 动作(Action)

动作定义了智能体如何与环境交互。

例如在马里奥中,动作可以是「上、下、左、右」。

所有动作的集合构成动作空间。

✅ 奖励(Reward)

奖励是智能体从环境中获得的反馈信号, 马里奥里面吃金币, 打怪, 最终胜利都是奖励。

合理设计奖励函数是强化学习的关键,它会直接影响学习结果。

✅ 状态转移(State Transition)

状态转移描述了在采取动作 aaa 后,环境从状态 sss 转移到 s′s's′ 的过程:
P(s′∣s,a) P(s'|s,a) P(s′∣s,a)

这种转移可以是随机的(如随机环境),也可以是确定的(如棋类游戏)。


4. 策略(Policy)

策略 π\piπ 定义了智能体在状态下的行动方式,是状态到动作的映射。

强化学习的目标就是找到一个最优策略 π∗\pi^*π∗,以最大化长期期望回报。

  • 确定性策略(Deterministic)
    a=π(s) a = \pi(s) a=π(s)

  • 随机策略(Stochastic)
    π(a∣s)=P(at=a∣st=s) \pi(a|s) = P(a_t = a | s_t = s) π(a∣s)=P(at=a∣st=s)


5. 随机性(Stochasticity)

强化学习中最大的挑战之一就是环境与策略的随机性。

  • 环境转移可能是随机的;
  • 策略选择动作可能是随机的;
  • 奖励也可能带有噪声。

这会导致训练过程难以完全可控,也增加了策略收敛的难度。


6. 回报与折扣回报(Return & Discounted Return)

回报(Return) 表示从某个时间步 ttt 开始后续累计获得的奖励:
Gt=rt+1+rt+2+⋯=∑k=0∞rt+k+1 G_t = r_{t+1} + r_{t+2} + \cdots = \sum_{k=0}^{\infty} r_{t+k+1} Gt=rt+1+rt+2+⋯=k=0∑∞rt+k+1

为了强调短期奖励并保证收敛,我们引入 折扣因子 γ\gammaγ
Gt=∑k=0∞γkrt+k+1 G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1} Gt=k=0∑∞γkrt+k+1

其中 0≤γ<10 \leq \gamma < 10≤γ<1。


7. 价值函数(Value Function)

价值函数衡量一个状态(或状态-动作对)在长期回报上的"好坏"。

  • 状态价值函数(State Value Function)

Vπ(s)=EπGt∣St=s V_\pi(s) = \mathbb{E}_\pi G_t \\mid S_t = s Vπ(s)=EπGt∣St=s

  • 动作价值函数(Action Value Function, Q 函数)

Qπ(s,a)=EπGt∣St=s,At=a Q_\pi(s,a) = \mathbb{E}_\pi G_t \\mid S_t = s, A_t = a Qπ(s,a)=EπGt∣St=s,At=a

  • 最优价值函数(Optimal Value Functions)

V∗(s)=max⁡πVπ(s),Q∗(s,a)=max⁡πQπ(s,a) V^*(s) = \max_\pi V_\pi(s), \quad Q^*(s,a) = \max_\pi Q_\pi(s,a) V∗(s)=πmaxVπ(s),Q∗(s,a)=πmaxQπ(s,a)

学习准确的价值函数有助于智能体判断哪种状态或动作更优,从而指导策略改进。


8. 强化学习的目标

强化学习的最终目标就是找到一个最优策略 π∗\pi^*π∗,使得期望折扣回报最大化:
π∗=arg⁡max⁡πEτ∼P(τ∣π)∑t=1Tγt−1rt \pi^* = \arg\max_\pi \mathbb{E}_{\tau \sim P(\tau|\pi)} \left \\sum_{t=1}\^{T} \\gamma\^{t-1} r_t \\right π∗=argπmaxEτ∼P(τ∣π)t=1∑Tγt−1rt

这也是大多数强化学习算法(如 Q-learning、Policy Gradient、Actor-Critic 等)的核心优化目标。


✅ 总结

  • MDP 是强化学习的数学框架。
  • 它通过 状态动作奖励转移策略 来描述整个交互过程。
  • 回报与价值函数是评价策略好坏的核心工具。
  • 强化学习的本质就是通过优化策略 π\piπ 来最大化期望折扣回报 J(π)J(\pi)J(π)。
相关推荐
梦想的初衷~几秒前
《双 Agent 工作台 + 全栈 GIS 项目搭建:前端地图/空间数据库/后端/云部署指南》
人工智能·echarts·leaflet·webgis·ai 辅助编程
恣逍信点1 分钟前
论“无中生有”之元逻辑——《凌微经——对称性共生关系论》随读
人工智能·程序人生·知识图谱·学习方法·业界资讯·交友·哲学
A15362552 分钟前
组装具身机器人品牌推荐 工业级选型与落地指南
人工智能·microsoft·机器人
沪漂阿龙7 分钟前
AI会自己勒索了?
人工智能
Omics Pro8 分钟前
首个针对生物医药LLM智能体的全流程过程级评测框架
数据库·人工智能·windows·redis·量子计算
dayuOK63078 分钟前
2026年AI生图工具实测:Midjourney、可灵、即梦谁更强?
人工智能·ai作画·aigc·音视频·ai写作
xx_xxxxx_9 分钟前
AI的工程基础1-最优化算法
人工智能·机器学习
Elastic 中国社区官方博客10 分钟前
跟踪资金流向:使用 ES|QL 和跨集群搜索追踪洗钱网络
大数据·人工智能·安全·elasticsearch·搜索引擎·金融·全文检索
协享科技10 分钟前
同一个模型,三个平台:OpenRouter - SiliconFlow - DeepInfra 实测对比
人工智能·ai编程·编程人生
papership15 分钟前
【如何做一个简单的skill(举例详细说明)】
人工智能