概率论基础
- 随机变量XXX:使用大写字母表示
- 随机变量XXX的取值xxx:x∈Xx\in Xx∈X,使用小写字母表示
- 概率密度函数:p(x)p(x)p(x),常见的概率密度函数:p(x)=12πσ2e−(x−μ)22σ2p(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}p(x)=2πσ2 1e−2σ2(x−μ)2
- 期望:E(f(x))=∫xf(x)p(x)dxE(f(x))=\int_x{f(x)p(x)dx}E(f(x))=∫xf(x)p(x)dx
强化学习基本概念
- 状态:s∈Ss\in Ss∈S
- 动作:a∈Aa\in Aa∈A
- 价值函数:π:(s,a)→[0,1],π(a∣s)=P(A=a∣S=s)\pi:(s,a) \rightarrow[0,1],\pi(a|s)=P(A=a|S=s)π:(s,a)→[0,1],π(a∣s)=P(A=a∣S=s)
- 奖励函数:r(s′,s,a)r(s',s,a)r(s′,s,a)
- 状态转移函数:P(s′∣s,a)=P(s′∣S=s,A=a)P(s'|s,a)=P(s'|S=s,A=a)P(s′∣s,a)=P(s′∣S=s,A=a)
随机性的来源:
选择动作,状态转移也是随机的
- 价值函数:π:(s,a)→[0,1],π(a∣s)=P(A=a∣S=s)\pi:(s,a) \rightarrow[0,1],\pi(a|s)=P(A=a|S=s)π:(s,a)→[0,1],π(a∣s)=P(A=a∣S=s)
- 状态转移函数:P(s′∣s,a)=P(s′∣S=s,A=a)P(s'|s,a)=P(s'|S=s,A=a)P(s′∣s,a)=P(s′∣S=s,A=a)
价值函数
RL训练函数
学习最优的动作评估函数,选择未来最大期望效应的动作:a=argmaxaQ∗(s,a)a=\arg \max_aQ^*(s,a)a=argmaxaQ∗(s,a),确定Q∗(s,a)Q^*(s,a)Q∗(s,a)
学习最优的策略:argmaxππ(a∣s)\arg \max_{\pi}\pi(a|s)argmaxππ(a∣s)
效用(Utility)或者回报(Return)
Ut=Rt+γRt+1+γ2Rt+2+γ3Rt+3⋯ U_t=R_t+\gamma R_{t+1}+\gamma^2 R_{t+2}+\gamma^3 R_{t+3}\cdots Ut=Rt+γRt+1+γ2Rt+2+γ3Rt+3⋯
对于当前时刻ttt,已经给定sts_tst和ata_tat ,UtU_tUt与Rt,At,Rt+1,At+1,⋯R_t,A_t,R_{t+1},A_{t+1},\cdotsRt,At,Rt+1,At+1,⋯有关
Q-value:
定义:未来时刻的期望回报
E[Ut∣St=st,At=at] E[U_t|S_t=s_t,A_t=a_t] E[Ut∣St=st,At=at]
给定给定sts_tst和ata_tat,可以通过求期望的形式消去Rt,At,Rt+1,At+1,⋯R_t,A_t,R_{t+1},A_{t+1},\cdotsRt,At,Rt+1,At+1,⋯这些未来的随机变量。
推导:如何消去未来随机变量获得未来的最大期望奖励
1. 概率论前提(编号公式)
链式法则(条件版本)
p(z1,...,zm∣c)=∏i=1mp(zi∣c,z1,...,zi−1).(1) p(z_1,\dots,z_m\mid c)=\prod_{i=1}^{m}p(z_i\mid c,z_1,\dots,z_{i-1}). \tag{1} p(z1,...,zm∣c)=i=1∏mp(zi∣c,z1,...,zi−1).(1)
条件期望(连续情形)
若 (X\mid(Y=y)) 有条件密度 (p(x\mid y)),则
E[f(X)∣Y=y]=∫f(x),p(x∣y),dx.(2) \mathbb E[f(X)\mid Y=y]=\int f(x),p(x\mid y),dx. \tag{2} E[f(X)∣Y=y]=∫f(x),p(x∣y),dx.(2)
全期望公式(Tower Property)
E[X∣C]=E![E[X∣C,D]∣C].(3) \mathbb E[X\mid C]=\mathbb E!\left[\mathbb E[X\mid C,D]\mid C\right]. \tag{3} E[X∣C]=E![E[X∣C,D]∣C].(3)
2. MDP 与策略(编号公式)
环境转移核(马尔可夫性)
p(s′∣s,a)=P(St+1=s′∣St=s,At=a).(4) p(s'\mid s,a)=\mathbb P(S_{t+1}=s'\mid S_t=s,A_t=a). \tag{4} p(s′∣s,a)=P(St+1=s′∣St=s,At=a).(4)
环境的马尔可夫性质(缩减条件集)
p(St+1∣S0,A0,...,St,At)=p(St+1∣St,At).(5) p(S_{t+1}\mid S_0,A_0,\dots,S_t,A_t)=p(S_{t+1}\mid S_t,A_t). \tag{5} p(St+1∣S0,A0,...,St,At)=p(St+1∣St,At).(5)
策略定义
π(a∣s)=P(At=a∣St=s).(6) \pi(a\mid s)=\mathbb P(A_t=a\mid S_t=s). \tag{6} π(a∣s)=P(At=a∣St=s).(6)
策略的"只看当前状态"性质
p(At∣S0,A0,...,St)=π(At∣St).(7) p(A_t\mid S_0,A_0,\dots,S_t)=\pi(A_t\mid S_t). \tag{7} p(At∣S0,A0,...,St)=π(At∣St).(7)
3. 轨迹与回报(编号公式)
定义有限长度未来轨迹(从 (t+1) 到 (t+n))
τt:n=(St+1,At+1,...,St+n,At+n).(8) \tau_{t:n}=(S_{t+1},A_{t+1},\dots,S_{t+n},A_{t+n}). \tag{8} τt:n=(St+1,At+1,...,St+n,At+n).(8)
折扣回报(无限期)
Ut=∑k=0∞γkRt+k.(9) U_t=\sum_{k=0}^{\infty}\gamma^k R_{t+k}. \tag{9} Ut=k=0∑∞γkRt+k.(9)
Q 函数定义
Qπ(st,at)=E[Ut∣St=st,At=at].(10) Q_\pi(s_t,a_t)=\mathbb E[U_t\mid S_t=s_t,A_t=a_t]. \tag{10} Qπ(st,at)=E[Ut∣St=st,At=at].(10)
4. 链式法则展开轨迹分布(关键展开)
对变量序列
((S_{t+1},A_{t+1},\dots,S_{t+n},A_{t+n}))
应用 (1),得到未化简 展开:
p(τt:n∣st,at)=p(St+1∣st,at),p(At+1∣st,at,St+1) ×p(St+2∣st,at,St+1,At+1),p(At+2∣st,at,St+1,At+1,St+2) ×⋯ ×p(St+n∣st,at,...,St+n−1,At+n−1),p(At+n∣st,at,...,St+n).(11) \begin{aligned} p(\tau_{t:n}\mid s_t,a_t) &=p(S_{t+1}\mid s_t,a_t), p(A_{t+1}\mid s_t,a_t,S_{t+1})\ &\quad\times p(S_{t+2}\mid s_t,a_t,S_{t+1},A_{t+1}), p(A_{t+2}\mid s_t,a_t,S_{t+1},A_{t+1},S_{t+2})\ &\quad\times\cdots\ &\quad\times p(S_{t+n}\mid s_t,a_t,\dots,S_{t+n-1},A_{t+n-1}), p(A_{t+n}\mid s_t,a_t,\dots,S_{t+n}). \end{aligned} \tag{11} p(τt:n∣st,at)=p(St+1∣st,at),p(At+1∣st,at,St+1) ×p(St+2∣st,at,St+1,At+1),p(At+2∣st,at,St+1,At+1,St+2) ×⋯ ×p(St+n∣st,at,...,St+n−1,At+n−1),p(At+n∣st,at,...,St+n).(11)
关键描述:式 (11) 仅来自链式法则,不含任何 MDP 假设。
5. 用马尔可夫性与策略结构化简(消去历史依赖)
对 (11) 中所有状态项 ,用 (5) 缩减条件集:
p(Sk+1∣st,at,...,Sk,Ak)=p(Sk+1∣Sk,Ak)=p(sk+1∣sk,ak).(12) p(S_{k+1}\mid s_t,a_t,\dots,S_k,A_k)=p(S_{k+1}\mid S_k,A_k)=p(s_{k+1}\mid s_k,a_k). \tag{12} p(Sk+1∣st,at,...,Sk,Ak)=p(Sk+1∣Sk,Ak)=p(sk+1∣sk,ak).(12)
对 (11) 中所有动作项 ,用 (7) 缩减条件集:
p(Ak∣st,at,...,Sk)=π(Ak∣Sk)=π(ak∣sk).(13) p(A_k\mid s_t,a_t,\dots,S_k)=\pi(A_k\mid S_k)=\pi(a_k\mid s_k). \tag{13} p(Ak∣st,at,...,Sk)=π(Ak∣Sk)=π(ak∣sk).(13)
将 (12)(13) 代回 (11),得到轨迹概率的乘积分解:
p(τt:n∣st,at)[∏k=tt+n−1p(sk+1∣sk,ak)][∏k=t+1t+nπ(ak∣sk)].(14) p(\tau_{t:n}\mid s_t,a_t) \left[\prod_{k=t}^{t+n-1}p(s_{k+1}\mid s_k,a_k)\right] \left[\prod_{k=t+1}^{t+n}\pi(a_k\mid s_k)\right]. \tag{14} p(τt:n∣st,at)[k=t∏t+n−1p(sk+1∣sk,ak)][k=t+1∏t+nπ(ak∣sk)].(14)
关键描述:式 (14) 是"链式法则 + 马尔可夫性 + 策略只看当前状态"的直接结论。
6. 用"条件期望=积分"把未来变量边缘化(轨迹积分形式)
把"未来随机性"打包到 (\tau) 中;给定 ((s_t,a_t)) 时 (U_t) 是轨迹的函数 (U_t(\tau))。由 (2) 得到:
Qπ(st,at)=∫Ut(τ),p(τ∣st,at),dτ.(15) Q_\pi(s_t,a_t)=\int U_t(\tau),p(\tau\mid s_t,a_t),d\tau. \tag{15} Qπ(st,at)=∫Ut(τ),p(τ∣st,at),dτ.(15)
这里的 (d\tau) 表示对
((s_{t+1},a_{t+1},\dots)) 的多重积分(离散则多重求和)。因此 (15) 就是"通过期望把未来随机变量消去"的严格含义:对它们做边缘化。
关键描述:式 (15) 是"消去 (S_{t+1},A_{t+1},\dots)"的最直接表达。
7. 逐步消去的等价形式(Bellman 积分方程)
先用回报递推恒等式:
Ut=Rt+γUt+1.(16) U_t=R_t+\gamma U_{t+1}. \tag{16} Ut=Rt+γUt+1.(16)
代入 (10) 并利用条件期望线性:
Qπ(s,a)=E[Rt∣s,a]+γ,E[Ut+1∣s,a].(17) Q_\pi(s,a)=\mathbb E[R_t\mid s,a]+\gamma,\mathbb E[U_{t+1}\mid s,a]. \tag{17} Qπ(s,a)=E[Rt∣s,a]+γ,E[Ut+1∣s,a].(17)
用全期望公式 (3) 先对 (S_{t+1}) 边缘化:
E[Ut+1∣s,a]=∫p(s′∣s,a),E[Ut+1∣St+1=s′],ds′.(18) \mathbb E[U_{t+1}\mid s,a] =\int p(s'\mid s,a),\mathbb E[U_{t+1}\mid S_{t+1}=s'],ds'. \tag{18} E[Ut+1∣s,a]=∫p(s′∣s,a),E[Ut+1∣St+1=s′],ds′.(18)
再对 (A_{t+1}) 边缘化(动作由策略产生),并识别内层为 (Q):
E[Ut+1∣St+1=s′]=∫π(a′∣s′),Qπ(s′,a′),da′.(19) \mathbb E[U_{t+1}\mid S_{t+1}=s'] =\int \pi(a'\mid s'),Q_\pi(s',a'),da'. \tag{19} E[Ut+1∣St+1=s′]=∫π(a′∣s′),Qπ(s′,a′),da′.(19)
将 (18)(19) 代回 (17),并记 (\mathbb E[R_t\mid s,a]=R(s,a)),得到最终 Bellman 型积分表达式:
Qπ(s,a)R(s,a)+γ∫p(s′∣s,a)[∫π(a′∣s′),Qπ(s′,a′),da′]ds′.(20) Q_\pi(s,a) R(s,a) +\gamma \int p(s'\mid s,a) \left[ \int \pi(a'\mid s'),Q_\pi(s',a'),da' \right]ds'. \tag{20} Qπ(s,a)R(s,a)+γ∫p(s′∣s,a)[∫π(a′∣s′),Qπ(s′,a′),da′]ds′.(20)
关键描述:式 (20) 是"逐层期望消去未来随机变量"的最终化简结果;外层积分消去 (S_{t+1}),内层积分消去 (A_{t+1})。