深度强化学习(1)——基础知识(名词解释,概率论基础,蒙特卡洛采样,马尔可夫决策过程)

前言:当AlphaGo击败李世石的那一刻,强化学习这个原本藏在学术殿堂里的概念,第一次以震撼的姿态走进了大众视野。它所展现的"智能体通过与环境互动、从试错中学习最优策略"的核心逻辑,不仅颠覆了人们对"学习"的传统认知,更勾勒出了人工智能走向自主决策的重要路径。从游戏AI的精准操作,到机器人的自主导航,再到金融领域的智能风控、工业场景的优化调度,强化学习正以强大的泛化能力,在各个行业掀起变革浪潮。本人也是心血来潮想要对强化学习学习一二,若有错误之处,请大家指正。

一、常见符号和专有名词

符号 中文名称 英文名称 核心解释
S或s 状态 state 智能体所处的环境情况,是环境的描述
A或a 动作 action 智能体在当前状态下可执行的操作
R或r 奖励 reward 智能体执行动作后,环境给出的即时反馈(正 / 负向)
U或u 回报 return 从当前时刻开始,智能体获得的所有奖励的(折扣)总和
γ 折扣率 discount factor 给未来奖励 "打折" 的系数(0<γ≤1),体现对未来奖励的重视程度
状态空间 state space 所有可能状态的集合
动作空间 action space 所有可能动作的集合
π(a|s) 随机策略函数 stochastic policy function 状态s下,智能体选择动作a的概率分布
μ(s) 确定策略函数 deterministic policy function 状态s下,智能体确定选择的动作(无随机性)
p(s′|s,a) 状态转移函数 state-transition function 状态s执行动作a后,转移到新状态s′的概率
Qπ​(s,a) 动作价值函数 action-value function 策略π下,状态s执行动作a后的期望回报
Q∗​(s,a) 最优动作价值函数 optimal action-value function 所有策略中,状态s执行动作a的最大期望回报
Vπ​(s) 状态价值函数 state-value function 策略π下,状态s的期望回报(策略选动作的平均价值)
V∗​(s) 最优状态价值函数 optimal state-value function 所有策略中,状态s的最大期望回报
Dπ​(s) 优势函数 advantage function 动作价值与状态价值的差值,体现动作相对当前策略的 "优势"
D∗​(s) 最优优势函数 optimal advantage function 最优策略下的优势函数
π(a|s;θ) 随机策略网络 stochastic policy network 用神经网络(参数θ)表示的随机策略函数
μ(s;θ) 确定策略网络 deterministic policy network 用神经网络(参数θ)表示的确定策略函数
Q(s,a;w) 深度 Q 网络 deep Q network (DQN) 用神经网络(参数w)表示的动作价值函数(解决高维状态问题)
q(s,a;w) 价值网络 value network 用神经网络(参数w)表示的价值函数(动作 / 状态价值)

二、概率论基础与蒙特卡洛采样

2.1 概率论基础

(1)随机变量

定义 :随机变量是一个将随机试验的结果 映射为实数的函数,通常用大写字母 X,Y,Z 表示。它的核心作用是将随机试验中不确定的、非数值的结果(如抛硬币的 "正面""反面")转化为可计算的数值(如 X=1 代表正面,X=0 代表反面)。

分类

  • 离散型随机变量:取值为有限个或可列无限个(如骰子点数 {1,2,3,4,5,6}、某网站日访问量)。
  • 连续型随机变量:取值为一个或多个区间内的所有实数(如人的身高、零件的测量误差)。
(2)观测值

定义 :随机变量的一次具体取值,称为观测值,通常用小写字母 x,y,z 表示。

  • 例:抛硬币 10 次,定义 X 为正面次数,X 是随机变量;某次试验得到正面 6 次,x=6 就是 X 的一个观测值。
  • 观测值是确定的数值 ,随机变量是不确定的变量
(3)概率质量函数(PMF)

定义 :仅适用于离散型随机变量 ,描述随机变量取某个特定值的概率,记为 或 P(x)。满足两个条件:

  1. ≥0,∀x
  2. (所有可能取值的概率和为 1)
  • 例:抛均匀硬币,X=1(正面),X=0(反面),PMF 为其他
(4)概率密度函数(PDF)

定义 :仅适用于连续型随机变量,描述随机变量在某个取值区间内的概率 "密集程度",记为 fX​(x) 或 f(x)。满足两个条件:

  1. ≥0,∀x
  2. (整个定义域上的积分和为 1)

关键性质

  • 连续型随机变量取单个值的概率为 0,即 P(X=a)=0。

  • 概率需通过区间积分 计算:

  • 例:均匀分布 X∼U(a,b) 的 PDF 为

    其他

2. 期望(Expectation)

期望是随机变量的加权平均值,反映随机变量取值的 "中心趋势",记为 E[X] 或 μ。

(1)离散型随机变量的期望
  • 条件: (绝对收敛,否则期望不存在)。
(2)连续型随机变量的期望
  • 条件: (绝对收敛,否则期望不存在)。
(3)期望的核心性质
  1. 线性性:(a,b 为常数,无需独立)。
  2. 若 X,Y 独立,则 (逆命题不成立)。

3. 二维及以上随机变量的期望求解

(1)二维随机变量的联合分布
  • 离散型 :联合概率质量函数,满足
  • 连续型 :联合概率密度函数,满足
(2)二维随机变量的期望
① 单个随机变量的期望(边际期望)
  • 离散型

  • 其中边际概率质量函数

  • 连续型

    其中边际概率密度函数

② 函数的期望

这是更通用的形式,g(X,Y) 是 X,Y 的二元函数(如 XY,X+Y)。

  • 离散型

  • 连续型

  • 例:求 E[X+Y](连续型)

    这验证了期望的线性性。

(3)多维随机变量(n 维)的期望

对于 n 维随机变量 ,联合 PDF 为 f(x1​,x2​,...,xn​),则

  • 单个变量的期望其中的边际 PDF。
  • 函数的期望

2.2 蒙特卡洛

蒙特卡洛采样是一种基于随机抽样的数值计算方法,核心思想是:通过生成大量随机样本,利用样本的统计特性(均值、方差等)来近似求解确定性问题(如积分、期望、复杂函数值)。

它的优势在于不依赖问题的解析性质 ,即使问题没有闭式解,只要能生成样本,就能通过统计模拟得到近似结果;缺点是精度依赖样本数量,样本越多,结果越准确,但计算成本也越高。

案例 1:近似圆周率 π

这个例子是蒙特卡洛方法的经典入门场景,完全靠随机投点实现。

在一个边长为 2 的正方形里(中心在原点,范围 [-1,1]×[-1,1]),画一个半径为 1 的内切圆。

  • 往正方形里随机扔很多点,点落在圆内的概率 = 圆的面积 ÷ 正方形的面积
  • 统计圆内的点数占总点数的比例,就能反推出 π 的值

步骤

  1. 生成 n 个随机点,每个点的横坐标 x 和纵坐标 y 都在 -11 之间。
  2. 对每个点判断:如果 x² + y² ≤ 1,说明这个点在圆内。
  3. 统计圆内的点数 m,用 4 × m/n 作为 π 的近似值(4 是正方形面积和圆面积的比例系数)。

案例 2:近似复杂积分

很多积分没有现成的计算公式,蒙特卡洛采样可以轻松解决,尤其适合高维积分。

比如要计算 ∫₀¹ e^(-x²)dx 这个积分,我们可以:

  1. 01 之间随机生成大量 x 值。
  2. 对每个 x 计算对应的函数值 e^(-x²)
  3. 把所有函数值取平均值,再乘以区间长度 1(因为积分区间是 0 到 1),结果就是积分的近似值。

近似随机变量的期望

期望就是随机变量的 "平均取值",蒙特卡洛方法直接通过抽样求平均,就能近似期望。

比如想知道正态分布随机变量 X 的期望:

  1. 从这个正态分布里随机抽大量样本。
  2. 对每个样本计算平方值。
  3. 所有平方值的平均值,就是 期望的近似值。

随机梯度下降(SGD)中的应用

随机梯度下降是机器学习的核心优化算法,它的本质就是蒙特卡洛采样的思想。

训练模型时,损失函数的梯度需要计算所有样本的平均梯度,计算量很大。蒙特卡洛的做法是:每次只随机选一个样本,用这个样本的梯度代替所有样本的平均梯度,大幅减少计算量。

三、马尔可夫决策过程

3.1 马尔可夫决策过程基础知识

强化学习的数学基础是马尔可夫决策过程(MarkovDecisionProcesses, MDPs)。马尔可夫决策过程(MDP)通常由状态空间、动作空间、状态转移矩阵、奖励函数及折扣因子构成。强化学习作为一种序贯决策过程,核心目标是寻找最优策略,以最大化系统的累积奖励,实现价值最优。

概念 简明定义
状态(State) 智能体对环境的即时描述,是决策的依据。例如:下棋时的棋盘布局、机器人的当前位置。
状态空间(State Space) 环境所有可能状态的集合,记为 S。例如:棋盘的所有合法布局集合、机器人可到达的所有位置集合。
动作(Action) 智能体在当前状态下可以执行的操作。例如:下棋时走某一步棋、机器人向前移动。
动作空间(Action Space) 智能体在所有状态下可执行动作的集合,记为 A。例如:棋子的所有合法走法、机器人的 "前进 / 后退 / 左转 / 右转" 集合。
智能体(Agent) 执行决策、与环境交互的主体,目标是最大化累积奖励。例如:下棋的 AI、自主导航的机器人。
策略函数(Policy) 智能体的决策规则 ,![\pi (a
奖励(Reward) 环境对智能体动作的即时反馈信号,记为 r(s,a,s′),表示从状态 s 执行动作 a 转移到 s′ 获得的奖励。
状态转移(State Transition) 智能体执行动作后,环境从当前状态切换到新状态的过程
状态转移函数(Deterministic Transition Function) 确定性的状态转移规则,记为 T(s,a)=s′,表示在状态 s 执行动作 a 必然转移到状态 s′。
随机状态转移函数(Stochastic Transition Function) 随机性的状态转移规则,记为 表示在状态 s执行动作a后转移到的概率 s′。
环境(Environment) 智能体外部的交互对象,会根据智能体的动作返回新状态和奖励,状态转移规则由环境决定。
智能体与环境的交互 智能体在环境中以 "观察状态→执行动作→获得奖励→进入新状态" 的循环持续交互,直到达到终止条件。
2. 实例:走迷宫的机器人

我们以一个机器人走迷宫的场景,直观解释所有概念的关联:

  1. 环境:迷宫本身,包含起点、终点、墙壁。
  2. 状态:机器人的当前坐标 (x,y),例如起点 (0,0)、终点 (5,5)。
  3. 状态空间:迷宫中所有可到达的坐标集合 S={(0,0),(0,1),...,(5,5)}。
  4. 动作 :机器人的移动操作,包括上、下、左、右
  5. 动作空间:A={上,下,左,右}(碰到墙壁时动作无效)。
  6. 智能体:迷宫中的机器人。
  7. 策略函数:机器人的决策规则,例如:π(右∣(0,0))=0.8,π(上∣(0,0))=0.2,表示在起点 (0,0) 时,80% 概率选择向右走,20% 概率选择向上走。
  8. 奖励:设定规则 ------ 每走一步奖励 −1(惩罚绕路),到达终点奖励 +100(鼓励快速通关),撞到墙壁奖励 −10(惩罚无效动作)。
  9. 状态转移
    • 确定性转移:若在状态 (0,0) 执行 "右" 动作,且右侧无墙,则必然转移到 (0,1),即 T((0,0),右)=(0,1)。
    • 随机转移:若地面湿滑,执行 "右" 动作时有 10% 概率滑倒向左走,则 P((0,1)∣(0,0),右)=0.9,P((0,−1)∣(0,0),右)=0.1(后者为无效状态,等价于停在原地)。
  10. 智能体与环境的交互循环
    • 初始状态:机器人在起点 (0,0)。
    • 第 1 步:观察状态 (0,0) → 按策略选 "右" 动作 → 环境返回新状态 (0,1) 和奖励 −1。
    • 第 2 步:观察状态 (0,1) → 按策略选动作 → 环境返回新状态和奖励。
    • ......
    • 终止条件:机器人到达终点 (5,5),获得奖励 +100,交互结束。
    • 目标:机器人通过调整策略,最大化整个过程的累积奖励(即尽快到达终点,减少步数惩罚)。

3.2 强化学习的随机性

1. 环境的随机性:状态转移的不确定性

这是强化学习最核心的随机性来源,由环境的动态特性决定,智能体无法直接控制。

  • 本质 :环境遵循随机状态转移函数 P(s′∣s,a),而非确定性函数 T(s,a)=s′。即智能体在状态 s 执行动作 a 后,不会唯一确定下一个状态,而是以不同概率转移到多个可能的状态。
  • 示例
    • 机器人走迷宫时,地面湿滑导致执行 "向右" 动作后,有 90% 概率到目标位置,10% 概率滑倒原地。
    • 游戏 AI 操控角色攻击时,攻击是否命中、造成多少伤害由概率决定(如暴击率 20%)。
    • 自动驾驶中,行人、车辆的行为具有不确定性,即使智能体保持匀速直行,周围环境的状态转移也是随机的。

2. 智能体的随机性:策略的不确定性

智能体的决策规则(策略)本身可以引入随机性,目的是平衡探索与利用

  • 本质 :智能体采用随机策略 π(a∣s),而非确定性策略 π(s)=a。即在同一个状态 s 下,智能体不会每次都选择相同的动作,而是按概率分布从动作空间中采样动作。
  • 作用:如果策略完全确定,智能体可能会一直选择当前认为最优的动作(利用),而错过更优的动作(探索);随机策略则能让智能体尝试不同动作,发现潜在的高奖励路径。
  • 示例
    • 用 ϵ- 贪婪策略训练迷宫机器人:90% 概率选择当前价值最高的动作(如向右),10% 概率随机选择动作(如向上 / 向下),保证对未知路径的探索。
    • 强化学习中的策略梯度算法,通常直接优化随机策略的参数(如高斯分布的均值和方差),让智能体在探索中逐步收敛到最优策略。

3. 奖励的随机性:反馈信号的不确定性

部分场景中,环境给予的奖励不是固定值,而是随机变量,进一步增加了强化学习的随机性。

  • 本质:奖励函数 r(s,a,s′) 不是确定的数值,而是服从某种概率分布,即相同的 (s,a,s′) 三元组可能对应不同的奖励值。
  • 示例
    • 机器人完成搬运任务时,奖励可能与物品的完好程度挂钩:成功搬运有 80% 概率获得 + 10 奖励,20% 概率因物品轻微损坏获得 + 5 奖励。
    • 金融交易的强化学习模型中,相同的交易动作(如买入某股票)在相同的市场状态下,因市场波动的随机性,获得的收益(奖励)是不确定的。

3.3 回报与折扣回报

回报(Return)是从当前时刻开始到一回合结束的所有奖励的总和。

把 t 时刻的回报记作随机变量 Ut=Rt+Rt+1+Rt+2+Rt+3+···

回报是未来获得的奖励总和,所以智能体的目标就是让回报尽量大,越 大越好。强化学习的目标就是寻找一个策略,使得回报的期望最大化。 注强化学习的目标是最大化回报,而不是最大化当前的奖励。

折扣回报(Discounted Return)

折扣回报是强化学习中衡量智能体长期累积奖励 的核心指标,它给远期奖励赋予一个折扣系数,让近期奖励的权重高于远期奖励。

假设智能体在交互过程中,从时刻 t 开始获得的奖励序列为 rt​,rt+1​,rt+2​,...,折扣回报 Gt​ 的定义为:

核心意义

  1. 符合现实决策逻辑:现实中,当下的收益比未来不确定的收益更有价值(比如今天拿到 100 元,比明年拿到 100 元更有用)。
  2. 保证数学收敛性:当奖励序列无限长时,折扣机制能让累积奖励的总和成为一个有限值,避免计算发散。

折扣率(Discount Rate)

折扣率 γ 是控制远期奖励折扣程度的超参数,取值范围为 0≤γ≤1。

  1. γ=0 :智能体只关注即时奖励,完全忽略未来收益。适合短期决策场景(如机器人紧急避障)。
  2. 0<γ<1:智能体兼顾即时奖励和远期奖励,γ 越接近 1,远期奖励的权重越高。比如 γ=0.9 时,下一个时刻的奖励权重是 0.9,再下一个时刻是 0.81,以此类推。
  3. γ=1 :退化为无折扣累积奖励。仅适用于有限步的任务(如迷宫机器人到达终点就终止),否则总和可能发散。

3.4 价值函数

动作价值函数Qπ(s,a)

最优动作价值函数Q⋆(s,a)

状态价值函数Vπ(s)

三者的关系:

3.5 策略学习和价值学习

强化学习方法通常分为两类:基于模型的方法(Model-Based)和无模 型方法(Model-Free),无模型方法又可以分为价值学习和策略学习。

基于模型的强化学习(Model-Based RL)

基于模型的强化学习方法的核心是显式构建环境模型 ,即学习状态转移函数 P(s′∣s,a) 和奖励函数 r(s,a,s′),用这个模型来模拟环境的动态变化。智能体可以利用构建好的模型进行虚拟规划 :在不与真实环境交互的情况下,通过模型推演不同动作序列的长期回报,从而选择最优策略。这种方法的优势在于样本效率高 ------ 只需少量真实交互数据就能训练出环境模型,再通过模型内的大量虚拟试错优化策略;但缺点也很明显,模型的准确性直接决定策略性能,如果模型与真实环境存在偏差(即 "模型误差"),会导致规划出的策略在真实环境中失效。典型应用场景包括机器人路径规划、棋类 AI 等可建模的领域。

无模型的强化学习(Model-Free RL)

无模型的强化学习方法不依赖环境模型 ,也不试图显式学习状态转移和奖励的规律,而是让智能体直接与真实环境交互,从交互产生的经验数据(状态、动作、奖励、下一个状态) 中学习价值函数或策略。这类方法的核心是 "试错学习",智能体通过不断探索环境、积累经验,逐步优化决策规则,无需对环境动态进行建模。其最大优势是适用性广 ,能处理复杂、高维、难以建模的真实场景(如自动驾驶、游戏 AI);但缺点是样本效率低------ 需要大量的真实环境交互数据才能收敛到较好的策略,训练过程往往耗时较长。典型算法包括 Q-learning、SARSA、策略梯度算法等,是当前强化学习在实际场景中应用的主流方法。

价值学习: 通常是指学习最优价值函数 Q⋆(s,a)(或者动作价 值函数、状态价值函数)。

**策略学习:**指的是学习策略函数π(a|s)。假如我们有了策略函 数,我们就可以直接用它计算所有动作的概率值,然后随机抽样选出一个动作并执行。

参考书籍《深度强化学习》

相关推荐
GeminiJM3 小时前
我的 MCP 学习之旅:从困惑到理解
人工智能·mcp
Hubianji_093 小时前
2026第7届人工智能与计算机应用国际会议
人工智能·能源·国际会议
Jerryhut3 小时前
opencv总结9——答题卡识别
人工智能·opencv·计算机视觉
DB!!!3 小时前
cube-studio手动部署label_studio至“标注平台”(启动企业版的功能)
人工智能·机器学习·rancher·mlops
掘金酱3 小时前
TRAE 2025 年度报告分享活动|获奖名单公示🎊
前端·人工智能·后端
电商API_180079052474 小时前
淘宝商品评论数据抓取指南|API调用演示
大数据·数据库·人工智能·数据分析·网络爬虫
deephub4 小时前
DecEx-RAG:过程监督+智能剪枝,让大模型检索推理快6倍
人工智能·深度学习·大语言模型·agent·剪枝·reg
@我们的天空4 小时前
【AI应用】学习和实践基于 LangChain/LangGraph 的链(Chain)构建、Agent 工具调用以及多轮对话流程的实现
人工智能·gpt·学习·语言模型·chatgpt·langchain·aigc
算力魔方AIPC4 小时前
如何使用OpenVINO在Intel显卡上部署PaddleOCR-VL模型
人工智能·openvino
用户5191495848454 小时前
FoxCMS v1.2.5 远程代码执行漏洞利用工具集
人工智能·aigc