计算机基础·强化学习

概率论基础

  • 随机变量XXX:使用大写字母表示
  • 随机变量XXX的取值xxx:x∈Xx\in Xx∈X,使用小写字母表示
  • 概率密度函数:p(x)p(x)p(x),常见的概率密度函数:p(x)=12πσ2e−(x−μ)22σ2p(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}p(x)=2πσ2 1e−2σ2(x−μ)2
  • 期望:E(f(x))=∫xf(x)p(x)dxE(f(x))=\int_x{f(x)p(x)dx}E(f(x))=∫xf(x)p(x)dx

强化学习基本概念

  • 状态:s∈Ss\in Ss∈S
  • 动作:a∈Aa\in Aa∈A
  • 价值函数:π:(s,a)→[0,1],π(a∣s)=P(A=a∣S=s)\pi:(s,a) \rightarrow[0,1],\pi(a|s)=P(A=a|S=s)π:(s,a)→[0,1],π(a∣s)=P(A=a∣S=s)
  • 奖励函数:r(s′,s,a)r(s',s,a)r(s′,s,a)
  • 状态转移函数:P(s′∣s,a)=P(s′∣S=s,A=a)P(s'|s,a)=P(s'|S=s,A=a)P(s′∣s,a)=P(s′∣S=s,A=a)

随机性的来源:

选择动作,状态转移也是随机的

  • 价值函数:π:(s,a)→[0,1],π(a∣s)=P(A=a∣S=s)\pi:(s,a) \rightarrow[0,1],\pi(a|s)=P(A=a|S=s)π:(s,a)→[0,1],π(a∣s)=P(A=a∣S=s)
  • 状态转移函数:P(s′∣s,a)=P(s′∣S=s,A=a)P(s'|s,a)=P(s'|S=s,A=a)P(s′∣s,a)=P(s′∣S=s,A=a)

价值函数

RL训练函数

学习最优的动作评估函数,选择未来最大期望效应的动作:a=arg⁡max⁡aQ∗(s,a)a=\arg \max_aQ^*(s,a)a=argmaxaQ∗(s,a),确定Q∗(s,a)Q^*(s,a)Q∗(s,a)

学习最优的策略:arg⁡max⁡ππ(a∣s)\arg \max_{\pi}\pi(a|s)argmaxππ(a∣s)


效用(Utility)或者回报(Return)

Ut=Rt+γRt+1+γ2Rt+2+γ3Rt+3⋯ U_t=R_t+\gamma R_{t+1}+\gamma^2 R_{t+2}+\gamma^3 R_{t+3}\cdots Ut=Rt+γRt+1+γ2Rt+2+γ3Rt+3⋯

对于当前时刻ttt,已经给定sts_tst和ata_tat ,UtU_tUt与Rt,At,Rt+1,At+1,⋯R_t,A_t,R_{t+1},A_{t+1},\cdotsRt,At,Rt+1,At+1,⋯有关

Q-value:

定义:未来时刻的期望回报
E[Ut∣St=st,At=at] E[U_t|S_t=s_t,A_t=a_t] E[Ut∣St=st,At=at]

给定给定sts_tst和ata_tat,可以通过求期望的形式消去Rt,At,Rt+1,At+1,⋯R_t,A_t,R_{t+1},A_{t+1},\cdotsRt,At,Rt+1,At+1,⋯这些未来的随机变量

推导:如何消去未来随机变量获得未来的最大期望奖励

1. 概率论前提(编号公式)

链式法则(条件版本)
p(z1,...,zm∣c)=∏i=1mp(zi∣c,z1,...,zi−1).(1) p(z_1,\dots,z_m\mid c)=\prod_{i=1}^{m}p(z_i\mid c,z_1,\dots,z_{i-1}). \tag{1} p(z1,...,zm∣c)=i=1∏mp(zi∣c,z1,...,zi−1).(1)

条件期望(连续情形)

若 (X\mid(Y=y)) 有条件密度 (p(x\mid y)),则
E[f(X)∣Y=y]=∫f(x),p(x∣y),dx.(2) \mathbb E[f(X)\mid Y=y]=\int f(x),p(x\mid y),dx. \tag{2} E[f(X)∣Y=y]=∫f(x),p(x∣y),dx.(2)

全期望公式(Tower Property)
E[X∣C]=E![E[X∣C,D]∣C].(3) \mathbb E[X\mid C]=\mathbb E!\left[\mathbb E[X\mid C,D]\mid C\right]. \tag{3} E[X∣C]=E![E[X∣C,D]∣C].(3)


2. MDP 与策略(编号公式)

环境转移核(马尔可夫性)
p(s′∣s,a)=P(St+1=s′∣St=s,At=a).(4) p(s'\mid s,a)=\mathbb P(S_{t+1}=s'\mid S_t=s,A_t=a). \tag{4} p(s′∣s,a)=P(St+1=s′∣St=s,At=a).(4)

环境的马尔可夫性质(缩减条件集)
p(St+1∣S0,A0,...,St,At)=p(St+1∣St,At).(5) p(S_{t+1}\mid S_0,A_0,\dots,S_t,A_t)=p(S_{t+1}\mid S_t,A_t). \tag{5} p(St+1∣S0,A0,...,St,At)=p(St+1∣St,At).(5)

策略定义
π(a∣s)=P(At=a∣St=s).(6) \pi(a\mid s)=\mathbb P(A_t=a\mid S_t=s). \tag{6} π(a∣s)=P(At=a∣St=s).(6)

策略的"只看当前状态"性质
p(At∣S0,A0,...,St)=π(At∣St).(7) p(A_t\mid S_0,A_0,\dots,S_t)=\pi(A_t\mid S_t). \tag{7} p(At∣S0,A0,...,St)=π(At∣St).(7)


3. 轨迹与回报(编号公式)

定义有限长度未来轨迹(从 (t+1) 到 (t+n))
τt:n=(St+1,At+1,...,St+n,At+n).(8) \tau_{t:n}=(S_{t+1},A_{t+1},\dots,S_{t+n},A_{t+n}). \tag{8} τt:n=(St+1,At+1,...,St+n,At+n).(8)

折扣回报(无限期)
Ut=∑k=0∞γkRt+k.(9) U_t=\sum_{k=0}^{\infty}\gamma^k R_{t+k}. \tag{9} Ut=k=0∑∞γkRt+k.(9)

Q 函数定义
Qπ(st,at)=E[Ut∣St=st,At=at].(10) Q_\pi(s_t,a_t)=\mathbb E[U_t\mid S_t=s_t,A_t=a_t]. \tag{10} Qπ(st,at)=E[Ut∣St=st,At=at].(10)


4. 链式法则展开轨迹分布(关键展开)

对变量序列

((S_{t+1},A_{t+1},\dots,S_{t+n},A_{t+n}))

应用 (1),得到未化简 展开:
p(τt:n∣st,at)=p(St+1∣st,at),p(At+1∣st,at,St+1) ×p(St+2∣st,at,St+1,At+1),p(At+2∣st,at,St+1,At+1,St+2) ×⋯ ×p(St+n∣st,at,...,St+n−1,At+n−1),p(At+n∣st,at,...,St+n).(11) \begin{aligned} p(\tau_{t:n}\mid s_t,a_t) &=p(S_{t+1}\mid s_t,a_t), p(A_{t+1}\mid s_t,a_t,S_{t+1})\ &\quad\times p(S_{t+2}\mid s_t,a_t,S_{t+1},A_{t+1}), p(A_{t+2}\mid s_t,a_t,S_{t+1},A_{t+1},S_{t+2})\ &\quad\times\cdots\ &\quad\times p(S_{t+n}\mid s_t,a_t,\dots,S_{t+n-1},A_{t+n-1}), p(A_{t+n}\mid s_t,a_t,\dots,S_{t+n}). \end{aligned} \tag{11} p(τt:n∣st,at)=p(St+1∣st,at),p(At+1∣st,at,St+1) ×p(St+2∣st,at,St+1,At+1),p(At+2∣st,at,St+1,At+1,St+2) ×⋯ ×p(St+n∣st,at,...,St+n−1,At+n−1),p(At+n∣st,at,...,St+n).(11)

关键描述:式 (11) 仅来自链式法则,不含任何 MDP 假设。


5. 用马尔可夫性与策略结构化简(消去历史依赖)

对 (11) 中所有状态项 ,用 (5) 缩减条件集:
p(Sk+1∣st,at,...,Sk,Ak)=p(Sk+1∣Sk,Ak)=p(sk+1∣sk,ak).(12) p(S_{k+1}\mid s_t,a_t,\dots,S_k,A_k)=p(S_{k+1}\mid S_k,A_k)=p(s_{k+1}\mid s_k,a_k). \tag{12} p(Sk+1∣st,at,...,Sk,Ak)=p(Sk+1∣Sk,Ak)=p(sk+1∣sk,ak).(12)

对 (11) 中所有动作项 ,用 (7) 缩减条件集:
p(Ak∣st,at,...,Sk)=π(Ak∣Sk)=π(ak∣sk).(13) p(A_k\mid s_t,a_t,\dots,S_k)=\pi(A_k\mid S_k)=\pi(a_k\mid s_k). \tag{13} p(Ak∣st,at,...,Sk)=π(Ak∣Sk)=π(ak∣sk).(13)

将 (12)(13) 代回 (11),得到轨迹概率的乘积分解:
p(τt:n∣st,at)[∏k=tt+n−1p(sk+1∣sk,ak)][∏k=t+1t+nπ(ak∣sk)].(14) p(\tau_{t:n}\mid s_t,a_t) \left[\prod_{k=t}^{t+n-1}p(s_{k+1}\mid s_k,a_k)\right] \left[\prod_{k=t+1}^{t+n}\pi(a_k\mid s_k)\right]. \tag{14} p(τt:n∣st,at)[k=t∏t+n−1p(sk+1∣sk,ak)][k=t+1∏t+nπ(ak∣sk)].(14)

关键描述:式 (14) 是"链式法则 + 马尔可夫性 + 策略只看当前状态"的直接结论。


6. 用"条件期望=积分"把未来变量边缘化(轨迹积分形式)

把"未来随机性"打包到 (\tau) 中;给定 ((s_t,a_t)) 时 (U_t) 是轨迹的函数 (U_t(\tau))。由 (2) 得到:
Qπ(st,at)=∫Ut(τ),p(τ∣st,at),dτ.(15) Q_\pi(s_t,a_t)=\int U_t(\tau),p(\tau\mid s_t,a_t),d\tau. \tag{15} Qπ(st,at)=∫Ut(τ),p(τ∣st,at),dτ.(15)

这里的 (d\tau) 表示对

((s_{t+1},a_{t+1},\dots)) 的多重积分(离散则多重求和)。因此 (15) 就是"通过期望把未来随机变量消去"的严格含义:对它们做边缘化

关键描述:式 (15) 是"消去 (S_{t+1},A_{t+1},\dots)"的最直接表达。


7. 逐步消去的等价形式(Bellman 积分方程)

先用回报递推恒等式:
Ut=Rt+γUt+1.(16) U_t=R_t+\gamma U_{t+1}. \tag{16} Ut=Rt+γUt+1.(16)

代入 (10) 并利用条件期望线性:
Qπ(s,a)=E[Rt∣s,a]+γ,E[Ut+1∣s,a].(17) Q_\pi(s,a)=\mathbb E[R_t\mid s,a]+\gamma,\mathbb E[U_{t+1}\mid s,a]. \tag{17} Qπ(s,a)=E[Rt∣s,a]+γ,E[Ut+1∣s,a].(17)

用全期望公式 (3) 先对 (S_{t+1}) 边缘化:
E[Ut+1∣s,a]=∫p(s′∣s,a),E[Ut+1∣St+1=s′],ds′.(18) \mathbb E[U_{t+1}\mid s,a] =\int p(s'\mid s,a),\mathbb E[U_{t+1}\mid S_{t+1}=s'],ds'. \tag{18} E[Ut+1∣s,a]=∫p(s′∣s,a),E[Ut+1∣St+1=s′],ds′.(18)

再对 (A_{t+1}) 边缘化(动作由策略产生),并识别内层为 (Q):
E[Ut+1∣St+1=s′]=∫π(a′∣s′),Qπ(s′,a′),da′.(19) \mathbb E[U_{t+1}\mid S_{t+1}=s'] =\int \pi(a'\mid s'),Q_\pi(s',a'),da'. \tag{19} E[Ut+1∣St+1=s′]=∫π(a′∣s′),Qπ(s′,a′),da′.(19)

将 (18)(19) 代回 (17),并记 (\mathbb E[R_t\mid s,a]=R(s,a)),得到最终 Bellman 型积分表达式:
Qπ(s,a)R(s,a)+γ∫p(s′∣s,a)[∫π(a′∣s′),Qπ(s′,a′),da′]ds′.(20) Q_\pi(s,a) R(s,a) +\gamma \int p(s'\mid s,a) \left[ \int \pi(a'\mid s'),Q_\pi(s',a'),da' \right]ds'. \tag{20} Qπ(s,a)R(s,a)+γ∫p(s′∣s,a)[∫π(a′∣s′),Qπ(s′,a′),da′]ds′.(20)

关键描述:式 (20) 是"逐层期望消去未来随机变量"的最终化简结果;外层积分消去 (S_{t+1}),内层积分消去 (A_{t+1})。


相关推荐
大江东去浪淘尽千古风流人物16 小时前
【VLM】从“评测哲学”和“技术本质”两个层面拆解 robochallenge 任务设计
机器人·大模型·概率论·端侧部署·巨身智能
passxgx1 天前
12.2 协方差矩阵与联合概率
线性代数·矩阵·概率论
szcsun52 天前
机器学习(六)--异常检测、主成分分析
人工智能·机器学习·概率论
AI科技星2 天前
张祥前统一场论 22 个核心公式及常数
服务器·人工智能·线性代数·算法·矩阵·概率论
大江东去浪淘尽千古风流人物2 天前
【SLAM】Hydra-Foundations 层次化空间感知:机器人如何像人类一样理解3D环境
深度学习·算法·3d·机器人·概率论·slam
大江东去浪淘尽千古风流人物2 天前
【pySLAM】pySLAM
人工智能·算法·机器学习·概率论·slam
大江东去浪淘尽千古风流人物2 天前
【VLN】VLN Paradigm Alg:Reinforcement learning 强化学习及其细节(4)
机器人·大模型·概率论·端侧部署·巨身智能
modi0003 天前
通俗理解概率乘法公式:P(AB)=P(A)×P(B∣A)
概率论
AI科技星3 天前
从复平面旋转到三维螺旋:欧拉公式在张祥前统一场论中的几何角色与运动合成
线性代数·算法·机器学习·平面·矩阵·概率论