计算机基础·强化学习

概率论基础

随机变量XXX：使用大写字母表示
随机变量XXX的取值xxx：x∈Xx\in Xx∈X，使用小写字母表示
概率密度函数：p(x)p(x)p(x)，常见的概率密度函数：p(x)=12πσ2e−(x−μ)22σ2p(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}p(x)=2πσ2 1e−2σ2(x−μ)2
期望：E(f(x))=∫xf(x)p(x)dxE(f(x))=\int_x{f(x)p(x)dx}E(f(x))=∫xf(x)p(x)dx

强化学习基本概念

状态：s∈Ss\in Ss∈S
动作：a∈Aa\in Aa∈A
价值函数：π:(s,a)→[0,1]，π(a∣s)=P(A=a∣S=s)\pi:(s,a) \rightarrow[0,1]，\pi(a|s)=P(A=a|S=s)π:(s,a)→[0,1]，π(a∣s)=P(A=a∣S=s)
奖励函数：r(s′,s,a)r(s',s,a)r(s′,s,a)
状态转移函数：P(s′∣s,a)=P(s′∣S=s,A=a)P(s'|s,a)=P(s'|S=s,A=a)P(s′∣s,a)=P(s′∣S=s,A=a)

随机性的来源：

选择动作，状态转移也是随机的

价值函数：π:(s,a)→[0,1]，π(a∣s)=P(A=a∣S=s)\pi:(s,a) \rightarrow[0,1]，\pi(a|s)=P(A=a|S=s)π:(s,a)→[0,1]，π(a∣s)=P(A=a∣S=s)
状态转移函数：P(s′∣s,a)=P(s′∣S=s,A=a)P(s'|s,a)=P(s'|S=s,A=a)P(s′∣s,a)=P(s′∣S=s,A=a)

价值函数

RL训练函数

学习最优的动作评估函数，选择未来最大期望效应的动作：a=arg⁡max⁡aQ∗(s,a)a=\arg \max_aQ^(s,a)a=argmaxaQ∗(s,a)，确定Q∗(s,a)Q^(s,a)Q∗(s,a)

学习最优的策略：arg⁡max⁡ππ(a∣s)\arg \max_{\pi}\pi(a|s)argmaxππ(a∣s)

效用(Utility)或者回报(Return)

Ut=Rt+γRt+1+γ2Rt+2+γ3Rt+3⋯ U_t=R_t+\gamma R_{t+1}+\gamma^2 R_{t+2}+\gamma^3 R_{t+3}\cdots Ut=Rt+γRt+1+γ2Rt+2+γ3Rt+3⋯

对于当前时刻ttt，已经给定sts_tst和ata_tat ，UtU_tUt与Rt,At,Rt+1,At+1,⋯R_t,A_t,R_{t+1},A_{t+1},\cdotsRt,At,Rt+1,At+1,⋯有关

Q-value：

定义：未来时刻的期望回报
E[Ut∣St=st,At=at] E[U_t|S_t=s_t,A_t=a_t] E[Ut∣St=st,At=at]

给定给定sts_tst和ata_tat，可以通过求期望的形式消去Rt,At,Rt+1,At+1,⋯R_t,A_t,R_{t+1},A_{t+1},\cdotsRt,At,Rt+1,At+1,⋯这些未来的随机变量。

推导：如何消去未来随机变量获得未来的最大期望奖励

1. 概率论前提（编号公式）

链式法则（条件版本）
p(z1,...,zm∣c)=∏i=1mp(zi∣c,z1,...,zi−1).(1) p(z_1,\dots,z_m\mid c)=\prod_{i=1}^{m}p(z_i\mid c,z_1,\dots,z_{i-1}). \tag{1} p(z1,...,zm∣c)=i=1∏mp(zi∣c,z1,...,zi−1).(1)

条件期望（连续情形）

若 (X\mid(Y=y)) 有条件密度 (p(x\mid y))，则
E[f(X)∣Y=y]=∫f(x),p(x∣y),dx.(2) \mathbb E[f(X)\mid Y=y]=\int f(x),p(x\mid y),dx. \tag{2} E[f(X)∣Y=y]=∫f(x),p(x∣y),dx.(2)

全期望公式（Tower Property）
E[X∣C]=E![E[X∣C,D]∣C].(3) \mathbb E[X\mid C]=\mathbb E!\left[\mathbb E[X\mid C,D]\mid C\right]. \tag{3} E[X∣C]=E![E[X∣C,D]∣C].(3)

2. MDP 与策略（编号公式）

环境转移核（马尔可夫性）
p(s′∣s,a)=P(St+1=s′∣St=s,At=a).(4) p(s'\mid s,a)=\mathbb P(S_{t+1}=s'\mid S_t=s,A_t=a). \tag{4} p(s′∣s,a)=P(St+1=s′∣St=s,At=a).(4)

环境的马尔可夫性质（缩减条件集）
p(St+1∣S0,A0,...,St,At)=p(St+1∣St,At).(5) p(S_{t+1}\mid S_0,A_0,\dots,S_t,A_t)=p(S_{t+1}\mid S_t,A_t). \tag{5} p(St+1∣S0,A0,...,St,At)=p(St+1∣St,At).(5)

策略定义
π(a∣s)=P(At=a∣St=s).(6) \pi(a\mid s)=\mathbb P(A_t=a\mid S_t=s). \tag{6} π(a∣s)=P(At=a∣St=s).(6)

策略的"只看当前状态"性质
p(At∣S0,A0,...,St)=π(At∣St).(7) p(A_t\mid S_0,A_0,\dots,S_t)=\pi(A_t\mid S_t). \tag{7} p(At∣S0,A0,...,St)=π(At∣St).(7)

3. 轨迹与回报（编号公式）

定义有限长度未来轨迹（从 (t+1) 到 (t+n)）
τt:n=(St+1,At+1,...,St+n,At+n).(8) \tau_{t:n}=(S_{t+1},A_{t+1},\dots,S_{t+n},A_{t+n}). \tag{8} τt:n=(St+1,At+1,...,St+n,At+n).(8)

折扣回报（无限期）
Ut=∑k=0∞γkRt+k.(9) U_t=\sum_{k=0}^{\infty}\gamma^k R_{t+k}. \tag{9} Ut=k=0∑∞γkRt+k.(9)

Q 函数定义
Qπ(st,at)=E[Ut∣St=st,At=at].(10) Q_\pi(s_t,a_t)=\mathbb E[U_t\mid S_t=s_t,A_t=a_t]. \tag{10} Qπ(st,at)=E[Ut∣St=st,At=at].(10)

4. 链式法则展开轨迹分布（关键展开）

对变量序列

((S_{t+1},A_{t+1},\dots,S_{t+n},A_{t+n}))

应用 (1)，得到未化简 展开：
p(τt:n∣st,at)=p(St+1∣st,at),p(At+1∣st,at,St+1) ×p(St+2∣st,at,St+1,At+1),p(At+2∣st,at,St+1,At+1,St+2) ×⋯ ×p(St+n∣st,at,...,St+n−1,At+n−1),p(At+n∣st,at,...,St+n).(11) \begin{aligned} p(\tau_{t:n}\mid s_t,a_t) &=p(S_{t+1}\mid s_t,a_t), p(A_{t+1}\mid s_t,a_t,S_{t+1})\ &\quad\times p(S_{t+2}\mid s_t,a_t,S_{t+1},A_{t+1}), p(A_{t+2}\mid s_t,a_t,S_{t+1},A_{t+1},S_{t+2})\ &\quad\times\cdots\ &\quad\times p(S_{t+n}\mid s_t,a_t,\dots,S_{t+n-1},A_{t+n-1}), p(A_{t+n}\mid s_t,a_t,\dots,S_{t+n}). \end{aligned} \tag{11} p(τt:n∣st,at)=p(St+1∣st,at),p(At+1∣st,at,St+1) ×p(St+2∣st,at,St+1,At+1),p(At+2∣st,at,St+1,At+1,St+2) ×⋯ ×p(St+n∣st,at,...,St+n−1,At+n−1),p(At+n∣st,at,...,St+n).(11)

关键描述：式 (11) 仅来自链式法则，不含任何 MDP 假设。

5. 用马尔可夫性与策略结构化简（消去历史依赖）

对 (11) 中所有状态项 ，用 (5) 缩减条件集：
p(Sk+1∣st,at,...,Sk,Ak)=p(Sk+1∣Sk,Ak)=p(sk+1∣sk,ak).(12) p(S_{k+1}\mid s_t,a_t,\dots,S_k,A_k)=p(S_{k+1}\mid S_k,A_k)=p(s_{k+1}\mid s_k,a_k). \tag{12} p(Sk+1∣st,at,...,Sk,Ak)=p(Sk+1∣Sk,Ak)=p(sk+1∣sk,ak).(12)

对 (11) 中所有动作项 ，用 (7) 缩减条件集：
p(Ak∣st,at,...,Sk)=π(Ak∣Sk)=π(ak∣sk).(13) p(A_k\mid s_t,a_t,\dots,S_k)=\pi(A_k\mid S_k)=\pi(a_k\mid s_k). \tag{13} p(Ak∣st,at,...,Sk)=π(Ak∣Sk)=π(ak∣sk).(13)

将 (12)(13) 代回 (11)，得到轨迹概率的乘积分解：
p(τt:n∣st,at)[∏k=tt+n−1p(sk+1∣sk,ak)][∏k=t+1t+nπ(ak∣sk)].(14) p(\tau_{t:n}\mid s_t,a_t) \left[\prod_{k=t}^{t+n-1}p(s_{k+1}\mid s_k,a_k)\right] \left[\prod_{k=t+1}^{t+n}\pi(a_k\mid s_k)\right]. \tag{14} p(τt:n∣st,at)[k=t∏t+n−1p(sk+1∣sk,ak)][k=t+1∏t+nπ(ak∣sk)].(14)

关键描述：式 (14) 是"链式法则 + 马尔可夫性 + 策略只看当前状态"的直接结论。

6. 用"条件期望=积分"把未来变量边缘化（轨迹积分形式）

把"未来随机性"打包到 (\tau) 中；给定 ((s_t,a_t)) 时 (U_t) 是轨迹的函数 (U_t(\tau))。由 (2) 得到：
Qπ(st,at)=∫Ut(τ),p(τ∣st,at),dτ.(15) Q_\pi(s_t,a_t)=\int U_t(\tau),p(\tau\mid s_t,a_t),d\tau. \tag{15} Qπ(st,at)=∫Ut(τ),p(τ∣st,at),dτ.(15)

这里的 (d\tau) 表示对

((s_{t+1},a_{t+1},\dots)) 的多重积分（离散则多重求和）。因此 (15) 就是"通过期望把未来随机变量消去"的严格含义：对它们做边缘化。

关键描述：式 (15) 是"消去 (S_{t+1},A_{t+1},\dots)"的最直接表达。

7. 逐步消去的等价形式（Bellman 积分方程）

先用回报递推恒等式：
Ut=Rt+γUt+1.(16) U_t=R_t+\gamma U_{t+1}. \tag{16} Ut=Rt+γUt+1.(16)

代入 (10) 并利用条件期望线性：
Qπ(s,a)=E[Rt∣s,a]+γ,E[Ut+1∣s,a].(17) Q_\pi(s,a)=\mathbb E[R_t\mid s,a]+\gamma,\mathbb E[U_{t+1}\mid s,a]. \tag{17} Qπ(s,a)=E[Rt∣s,a]+γ,E[Ut+1∣s,a].(17)

用全期望公式 (3) 先对 (S_{t+1}) 边缘化：
E[Ut+1∣s,a]=∫p(s′∣s,a),E[Ut+1∣St+1=s′],ds′.(18) \mathbb E[U_{t+1}\mid s,a] =\int p(s'\mid s,a),\mathbb E[U_{t+1}\mid S_{t+1}=s'],ds'. \tag{18} E[Ut+1∣s,a]=∫p(s′∣s,a),E[Ut+1∣St+1=s′],ds′.(18)

再对 (A_{t+1}) 边缘化（动作由策略产生），并识别内层为 (Q)：
E[Ut+1∣St+1=s′]=∫π(a′∣s′),Qπ(s′,a′),da′.(19) \mathbb E[U_{t+1}\mid S_{t+1}=s'] =\int \pi(a'\mid s'),Q_\pi(s',a'),da'. \tag{19} E[Ut+1∣St+1=s′]=∫π(a′∣s′),Qπ(s′,a′),da′.(19)

将 (18)(19) 代回 (17)，并记 (\mathbb E[R_t\mid s,a]=R(s,a))，得到最终 Bellman 型积分表达式：
Qπ(s,a)R(s,a)+γ∫p(s′∣s,a)[∫π(a′∣s′),Qπ(s′,a′),da′]ds′.(20) Q_\pi(s,a) R(s,a) +\gamma \int p(s'\mid s,a) \left[ \int \pi(a'\mid s'),Q_\pi(s',a'),da' \right]ds'. \tag{20} Qπ(s,a)R(s,a)+γ∫p(s′∣s,a)[∫π(a′∣s′),Qπ(s′,a′),da′]ds′.(20)

关键描述：式 (20) 是"逐层期望消去未来随机变量"的最终化简结果；外层积分消去 (S_{t+1})，内层积分消去 (A_{t+1})。