【深度学习基础】概率论

深度学习研究者必读：概率论基础知识

"深度学习其实就是用概率语言去描述高维非线性映射。"

0. 阅读指南

本文面向已具备本科概率论基础的读者。
每个知识点给出：
- 为什么需要（Why）
- 核心概念 & 公式（What）
- 在 DL 里的典型用例（Where）
- 进一步阅读（Next）
章节之间呈"由浅入深"的拓扑序；可边看边查 Wikipedia 或 D2L 对应章节。

1. 概率三元组与测度论直觉

Why
现代深度学习大量使用测度论语言（e.g. Wasserstein GAN、Diffusion）。不懂 σ-代数，很多论文的定理看不懂。
What
概率空间 ( Ω , F , P ) (\Omega,\mathcal{F},P) (Ω,F,P) 中
- Ω \Omega Ω：样本空间
- F \mathcal{F} F：事件 σ-代数
- P P P：概率测度，满足可数可加性
- 随机变量 X : Ω → R X:\Omega\to\mathbb{R} X:Ω→R 是 F / B ( R ) \mathcal{F}/\mathcal{B}(\mathbb{R}) F/B(R) 可测函数
Where
- 证明 GAN 的"最优判别器"存在性（Radon-Nikodym 导数）。
- 分析 Diffusion Model 的逆过程（Doob-Dynkin 引理）。
Next
- $Williams, Probability with Martingales\] 第 1--3 章$

2. 条件概率 & Bayes 定理

Why
所有后验推断、变分推断、Bayesian Neural Network 的根基。
What
条件概率：
P ( A ∣ B ) = P ( A ∩ B ) P ( B ) P(A|B)=\frac{P(A\cap B)}{P(B)} P(A∣B)=P(B)P(A∩B)
全概率公式：
P ( A ) = ∑ i P ( A ∣ B i ) P ( B i ) P(A)=\sum_i P(A|B_i)P(B_i) P(A)=i∑P(A∣Bi)P(Bi)
Bayes：
P ( θ ∣ D ) = P ( D ∣ θ ) P ( θ ) P ( D ) P(\theta|D)=\frac{P(D|\theta)P(\theta)}{P(D)} P(θ∣D)=P(D)P(D∣θ)P(θ)
Where
- Variational Auto-Encoder 的 ELBO：
  log ⁡ p θ ( x ) ≥ E q ϕ ( z ∣ x ) ⁣ [ log ⁡ p θ ( x , z ) q ϕ ( z ∣ x ) ] \log p_\theta(x)\geq \mathbb{E}{q\phi(z|x)}\!\left[\log\frac{p_\theta(x,z)}{q_\phi(z|x)}\right] logpθ(x)≥Eqϕ(z∣x)[logqϕ(z∣x)pθ(x,z)]
- Bayesian Neural Network 的权重后验推断。
Next
- $Bishop, PRML\] 1.2, 2.1$

3. 期望、方差、协方差 & 矩

Why
优化目标几乎都是期望；梯度估计的方差决定收敛速度。
What
- 期望： E [ X ] = ∫ Ω X ( ω ) d P ( ω ) \mathbb{E}[X]=\int_\Omega X(\omega)\,dP(\omega) E[X]=∫ΩX(ω)dP(ω)
- 方差： V a r [ X ] = E [ ( X − E [ X ] ) 2 ] \mathrm{Var}[X]=\mathbb{E}[(X-\mathbb{E}[X])^2] Var[X]=E[(X−E[X])2]
- 协方差矩阵： C o v ( x ) = E [ ( x − μ ) ( x − μ ) ⊤ ] \mathrm{Cov}(\mathbf{x})=\mathbb{E}[(\mathbf{x}-\boldsymbol{\mu})(\mathbf{x}-\boldsymbol{\mu})^\top] Cov(x)=E[(x−μ)(x−μ)⊤]
- 高阶矩： E [ X k ] \mathbb{E}[X^k] E[Xk] 决定尾行为（heavy-tailed vs sub-Gaussian）。
Where
- Adam 的 bias-correction： m ^ t = m t / ( 1 − β 1 t ) \hat{m}_t = m_t/(1-\beta_1^t) m^t=mt/(1−β1t) 利用期望迭代公式。
- StyleGAN 的 Perceptual Path Length 基于协方差矩阵的迹。
Next
- $Casella \& Berger, Statistical Inference\] 2.2--2.3$

4. 常见分布族速查表

名称	密度/概率	与 DL 的羁绊
Bernoulli	p k ( 1 − p ) 1 − k p^k(1-p)^{1-k} pk(1−p)1−k	二元分类输出
Categorical	∏ i p i x i \prod_i p_i^{x_i} ∏ipixi	Softmax 输出
Gaussian	$\mathcal{N}(x	\mu,\sigma^2)$
Dirichlet	1 B ( α ) ∏ i x i α i − 1 \frac{1}{B(\boldsymbol{\alpha})}\prod_i x_i^{\alpha_i-1} B(α)1∏ixiαi−1	Topic Model 先验
Gumbel & Concrete	exp ⁡ ( − ( − log ⁡ p + G ) ) \exp(-(-\log p + G)) exp(−(−logp+G))	Gumbel-Softmax 重参数化
Laplace	$\frac{1}{2b}\exp!\left(-\frac{	x-\mu
Student-t	Γ ( ( ν + 1 ) / 2 ) ν π Γ ( ν / 2 ) ( 1 + x 2 ν ) − ( ν + 1 ) / 2 \frac{\Gamma((\nu+1)/2)}{\sqrt{\nu\pi}\Gamma(\nu/2)}\left(1+\frac{x^2}{\nu}\right)^{-(\nu+1)/2} νπ Γ(ν/2)Γ((ν+1)/2)(1+νx2)−(ν+1)/2	鲁棒回归

Next
- $Murphy, Machine Learning: A Probabilistic Perspective\] 2.4$

5. 信息论三件套

Why
损失函数（Cross-Entropy、KL、ELBO）全部是信息论量。
What
- 熵： H ( p ) = − ∑ x p ( x ) log ⁡ p ( x ) H(p)=-\sum_x p(x)\log p(x) H(p)=−∑xp(x)logp(x)
- 交叉熵： H ( p , q ) = − ∑ x p ( x ) log ⁡ q ( x ) H(p,q)=-\sum_x p(x)\log q(x) H(p,q)=−∑xp(x)logq(x)
- KL 散度： D KL ( p ∥ q ) = ∑ x p ( x ) log ⁡ p ( x ) q ( x ) D_{\text{KL}}(p\|q)=\sum_x p(x)\log\frac{p(x)}{q(x)} DKL(p∥q)=∑xp(x)logq(x)p(x)
- 互信息： I ( X ; Y ) = D KL ( p ( x , y ) ∥ p ( x ) p ( y ) ) I(X;Y)=D_{\text{KL}}(p(x,y)\|p(x)p(y)) I(X;Y)=DKL(p(x,y)∥p(x)p(y))
Where
- CLIP 训练目标： L = − 1 N ∑ i , j log ⁡ exp ⁡ ( z i ⊤ z j / τ ) ∑ k exp ⁡ ( z i ⊤ z k / τ ) \mathcal{L}=-\frac{1}{N}\sum_{i,j} \log\frac{\exp(\mathbf{z}_i^\top \mathbf{z}_j/\tau)}{\sum_k \exp(\mathbf{z}_i^\top \mathbf{z}_k/\tau)} L=−N1∑i,jlog∑kexp(zi⊤zk/τ)exp(zi⊤zj/τ) 本质是最小化对称交叉熵。
- VAE 的 KL 正则项。
Next
- $Cover \& Thomas, Elements of Information Theory\] 2.1--2.5$

6. 多元高斯 & 高斯过程

Why
高斯假设让线性模型变成"核技巧"，让深度特征空间变成"高维高斯云"。
What
- 多元高斯 PDF：
  N ( x ∣ μ , Σ ) = 1 ( 2 π ) d / 2 ∣ Σ ∣ 1 / 2 exp ⁡ ⁣ ( − 1 2 ( x − μ ) ⊤ Σ − 1 ( x − μ ) ) \mathcal{N}(\mathbf{x}|\boldsymbol{\mu},\boldsymbol{\Sigma})=\frac{1}{(2\pi)^{d/2}|\boldsymbol{\Sigma}|^{1/2}}\exp\!\left(-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^\top\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right) N(x∣μ,Σ)=(2π)d/2∣Σ∣1/21exp(−21(x−μ)⊤Σ−1(x−μ))
- 条件高斯：
  p ( x a ∣ x b ) = N ( μ a ∣ b , Σ a ∣ b ) p(\mathbf{x}a|\mathbf{x}b)=\mathcal{N}(\boldsymbol{\mu}{a|b},\boldsymbol{\Sigma}{a|b}) p(xa∣xb)=N(μa∣b,Σa∣b)
  其中 μ a ∣ b = μ a + Σ a b Σ b b − 1 ( x b − μ b ) \boldsymbol{\mu}{a|b}=\boldsymbol{\mu}a+\boldsymbol{\Sigma}{ab}\boldsymbol{\Sigma}{bb}^{-1}(\mathbf{x}_b-\boldsymbol{\mu}_b) μa∣b=μa+ΣabΣbb−1(xb−μb)
- 高斯过程：任意有限维分布为联合高斯的函数先验。
Where
- StyleGAN2 的 W + W+ W+ 空间用高斯假设做 editing。
- GP-LSTM 结合 RNN 与 GP 建模不确定性。
Next
- $Rasmussen \& Williams, Gaussian Processes for Machine Learning$

7. 变分推断（VI）

Why
把"后验"转成"优化"，让 Bayes 神经网络可训练。
What
- ELBO 分解：
  log ⁡ p ( x ) ≥ L ( q ) = E q ( z ) log ⁡ p ( x , z ) − E q ( z ) log ⁡ q ( z ) \log p(x)\geq \mathcal{L}(q)=\mathbb{E}{q(z)}\log p(x,z)-\mathbb{E}{q(z)}\log q(z) logp(x)≥L(q)=Eq(z)logp(x,z)−Eq(z)logq(z)
- Mean-field： q ( z ) = ∏ i q i ( z i ) q(z)=\prod_i q_i(z_i) q(z)=∏iqi(zi)
- Amortized VI： q ϕ ( z ∣ x ) q_\phi(z|x) qϕ(z∣x) 用神经网络参数化。
Where
- VAE、β-VAE、NVAE、Diffusion-VI。
Next
- $Zhang et al., Advances in Variational Inference\] (2019)$

8. 蒙特卡洛方法

Why
高维积分无法解析，只能采样。
What
- 简单 MC： E [ f ( X ) ] ≈ 1 N ∑ i = 1 N f ( x i ) \mathbb{E}[f(X)]\approx\frac{1}{N}\sum_{i=1}^N f(x_i) E[f(X)]≈N1∑i=1Nf(xi)
- 重要性采样： E [ f ( X ) ] ≈ 1 N ∑ i = 1 N p ( x i ) q ( x i ) f ( x i ) \mathbb{E}[f(X)]\approx\frac{1}{N}\sum_{i=1}^N \frac{p(x_i)}{q(x_i)}f(x_i) E[f(X)]≈N1∑i=1Nq(xi)p(xi)f(xi)
- MCMC：Metropolis-Hastings、Hamiltonian MC、Langevin Dynamics。
Where
- PixelCNN++ 用重要性采样估计离散分布的交叉熵。
- Diffusion Model 的 DDPM 反向采样即 MCMC。
Next
- $Neal, MCMC Handbook$

9. 重参数化技巧（Reparameterization Trick）

Why
让随机节点可反向传播。
What
若 z ∼ q ϕ ( z ∣ x ) z\sim q_\phi(z|x) z∼qϕ(z∣x) 可写成 z = g ϕ ( x , ϵ ) , ϵ ∼ p ( ϵ ) z=g_\phi(x,\epsilon),\;\epsilon\sim p(\epsilon) z=gϕ(x,ϵ),ϵ∼p(ϵ)，则
∇ ϕ E q ϕ [ f ( z ) ] = E p ( ϵ ) ⁣ [ ∇ ϕ f ( g ϕ ( x , ϵ ) ) ] \nabla_\phi \mathbb{E}{q\phi}[f(z)]=\mathbb{E}{p(\epsilon)}\!\left[\nabla\phi f(g_\phi(x,\epsilon))\right] ∇ϕEqϕ[f(z)]=Ep(ϵ)[∇ϕf(gϕ(x,ϵ))]
Where
- VAE 的 encoder q ϕ ( z ∣ x ) = N ( z ∣ μ ϕ ( x ) , σ ϕ 2 ( x ) ) q_\phi(z|x)=\mathcal{N}(z|\mu_\phi(x),\sigma^2_\phi(x)) qϕ(z∣x)=N(z∣μϕ(x),σϕ2(x)) 用 z = μ + σ ⊙ ϵ z=\mu+\sigma\odot\epsilon z=μ+σ⊙ϵ。
- Normalizing Flow 的耦合层。
Next
- $Kingma \& Welling, Auto-Encoding Variational Bayes$

10. Copula & 高阶依赖

Why
建模多元非线性、非高斯依赖，提升生成质量。
What
- Sklar 定理：任意联合分布 F ( x 1 , ... , x d ) = C ( F 1 ( x 1 ) , ... , F d ( x d ) ) F(x_1,\dots,x_d)=C(F_1(x_1),\dots,F_d(x_d)) F(x1,...,xd)=C(F1(x1),...,Fd(xd))
- Gaussian Copula、Vine Copula、Implicit Copula。
Where
- Tabular GAN（CTGAN、TVAE）用 Copula 处理混合类型特征。
Next
- $Joe, Dependence Modeling with Copulas$

11. 随机过程 & 随机微积分

Why
扩散模型、随机最优控制、SDE-GAN 的数学基础。
What
- 布朗运动 W t W_t Wt： W t − W s ∼ N ( 0 , t − s ) W_t-W_s\sim\mathcal{N}(0,t-s) Wt−Ws∼N(0,t−s)
- Itô 引理：
  d f ( t , X t ) = ∂ f ∂ t ⁣ d t + ∂ f ∂ x ⁣ d X t + 1 2 ∂ 2 f ∂ x 2 ⁣ ( d X t ) 2 df(t,X_t)=\frac{\partial f}{\partial t}\!dt+\frac{\partial f}{\partial x}\!dX_t+\frac{1}{2}\frac{\partial^2 f}{\partial x^2}\!(dX_t)^2 df(t,Xt)=∂t∂fdt+∂x∂fdXt+21∂x2∂2f(dXt)2
- SDE： d X t = μ ( X t , t ) d t + σ ( X t , t ) d W t dX_t=\mu(X_t,t)\,dt+\sigma(X_t,t)\,dW_t dXt=μ(Xt,t)dt+σ(Xt,t)dWt
Where
- DDPM 的逆向 SDE：
  d x = [ f ( x , t ) − g ( t ) 2 ∇ x log ⁡ p t ( x ) ] d t + g ( t ) d W ˉ t d\mathbf{x}=[f(\mathbf{x},t)-g(t)^2\nabla_\mathbf{x}\log p_t(\mathbf{x})]\,dt+g(t)\,d\bar{W}_t dx=[f(x,t)−g(t)2∇xlogpt(x)]dt+g(t)dWˉt
Next
- $Øksendal, Stochastic Differential Equations$

12. 大数定律 & 中心极限定理

Why
训练误差为何收敛？batch size 如何影响方差？
What
- LLN： 1 n ∑ i = 1 n X i → a.s. E [ X ] \frac{1}{n}\sum_{i=1}^n X_i\xrightarrow{\text{a.s.}}\mathbb{E}[X] n1∑i=1nXia.s. E[X]
- CLT： n ( 1 n ∑ X i − μ ) → d N ( 0 , σ 2 ) \sqrt{n}\left(\frac{1}{n}\sum X_i-\mu\right)\xrightarrow{d}\mathcal{N}(0,\sigma^2) n (n1∑Xi−μ)d N(0,σ2)
Where
- SGD 噪声分析： θ t + 1 = θ t − η t ( ∇ L + ξ t ) \boldsymbol{\theta}_{t+1}=\boldsymbol{\theta}_t-\eta_t(\nabla L+\boldsymbol{\xi}_t) θt+1=θt−ηt(∇L+ξt)，其中 ξ t \boldsymbol{\xi}_t ξt 近似高斯。
Next
- $Vershynin, High-Dimensional Probability$

13. 泛化误差与 PAC-Bayes

Why
解释为什么大模型不 overfit。
What
- PAC-Bayes 界：
  E Q [ L D ( f ) ] ≤ E Q [ L S ( f ) ] + D KL ( Q ∥ P ) + log ⁡ n δ 2 ( n − 1 ) \mathbb{E}{Q}[L_D(f)]\leq \mathbb{E}{Q}[L_S(f)]+\sqrt{\frac{D_{\text{KL}}(Q\|P)+\log\frac{n}{\delta}}{2(n-1)}} EQ[LD(f)]≤EQ[LS(f)]+2(n−1)DKL(Q∥P)+logδn
- 其中 Q Q Q 为后验分布， P P P 为先验。
Where
- 解释 Sharpness-Aware Minimization (SAM) 的泛化界。
Next
- $Dziugaite \& Roy, Computing Nonvacuous Generalization Bounds$

14. 尾不等式 & 高维集中

Why
控制 dropout、mixup、label smoothing 的偏差。
What
- Hoeffding： P ⁣ ( ∣ 1 n ∑ X i − μ ∣ ≥ t ) ≤ 2 exp ⁡ ⁣ ( − 2 n t 2 ( b − a ) 2 ) \mathbb{P}\!\left(\left|\frac{1}{n}\sum X_i-\mu\right|\geq t\right)\leq 2\exp\!\left(-\frac{2nt^2}{(b-a)^2}\right) P( n1∑Xi−μ ≥t)≤2exp(−(b−a)22nt2)
- McDiarmid：有界差分 ⇒ 集中
- Azuma：鞅差序列 ⇒ 集中
Where
- 证明 Mixup 的期望风险上界。
Next
- $Boucheron et al., Concentration Inequalities$

15. Optimal Transport & Wasserstein 距离

Why
GAN 的 JS 散度会梯度消失，Wasserstein 距离不会。
What
- W p ( μ , ν ) = ( inf ⁡ γ ∈ Π ( μ , ν ) E ( x , y ) ∼ γ ∥ x − y ∥ p ) 1 / p W_p(\mu,\nu)=\left(\inf_{\gamma\in\Pi(\mu,\nu)}\mathbb{E}_{(x,y)\sim\gamma}\|x-y\|^p\right)^{1/p} Wp(μ,ν)=(infγ∈Π(μ,ν)E(x,y)∼γ∥x−y∥p)1/p
- Kantorovich-Rubinstein 对偶：
  W 1 ( μ , ν ) = sup ⁡ ∥ f ∥ L ≤ 1 E μ [ f ] − E ν [ f ] W_1(\mu,\nu)=\sup_{\|f\|L\leq 1}\mathbb{E}\mu[f]-\mathbb{E}_\nu[f] W1(μ,ν)=∥f∥L≤1supEμ[f]−Eν[f]
Where
- WGAN-GP 的 gradient penalty。
Next
- $Peyré \& Cuturi, Computational Optimal Transport$

16. 自回归模型 & 因果推断

Why
Transformer 的 Mask、Diffusion 的 Causal 链式法则。
What
- 链式法则： p ( x 1 : n ) = ∏ i = 1 n p ( x i ∣ x < i ) p(x_{1:n})=\prod_{i=1}^n p(x_i|x_{<i}) p(x1:n)=∏i=1np(xi∣x<i)
- 干预分布： p ( y ∣ do ( X = x ) ) p(y|\text{do}(X=x)) p(y∣do(X=x))
Where
- GPT 的 left-to-right 因子分解。
Next
- $Pearl, Causality$

17. 隐变量模型 & EM 算法

Why
GMM、HMM、VAE 的底层框架。
What
- 隐变量 z z z： p ( x ) = ∫ p ( x ∣ z ) p ( z ) d z p(x)=\int p(x|z)p(z)\,dz p(x)=∫p(x∣z)p(z)dz
- EM：
  E 步： q ( t ) ( z ) = p ( z ∣ x , θ ( t ) ) q^{(t)}(z)=p(z|x,\theta^{(t)}) q(t)(z)=p(z∣x,θ(t))
  M 步： θ ( t + 1 ) = arg ⁡ max ⁡ θ E q ( t ) [ log ⁡ p ( x , z ∣ θ ) ] \theta^{(t+1)}=\arg\max_\theta \mathbb{E}_{q^{(t)}}[\log p(x,z|\theta)] θ(t+1)=argmaxθEq(t)[logp(x,z∣θ)]
Where
- 深度高斯混合 VAE。
Next
- $Bishop, PRML\] 9.2--9.4$

18. 非参数 Bayes

Why
让模型大小随数据增长，避免手动调参。
What
- Dirichlet Process： G ∼ D P ( α , G 0 ) G\sim\mathrm{DP}(\alpha,G_0) G∼DP(α,G0)
- Chinese Restaurant Process：先验聚类数无限。
Where
- Infinite Mixture VAE。
Next
- $Ghahramani, Nonparametric Bayesian Methods$

19. 随机矩阵理论

Why
解释神经正切核（NTK）的谱分布、初始化方差。
What
- Marchenko-Pastur 分布：
  f λ ( x ) = 1 2 π λ x ( b − x ) ( x − a ) , a , b = ( 1 ∓ λ ) 2 f_\lambda(x)=\frac{1}{2\pi\lambda x}\sqrt{(b-x)(x-a)},\;a,b=(1\mp\sqrt{\lambda})^2 fλ(x)=2πλx1(b−x)(x−a) ,a,b=(1∓λ )2
Where
- 计算 Xavier/Kaiming 初始化的临界方差。
Next
- $Tao, Topics in Random Matrix Theory$

20. 强化学习中的 Bellman 方程

Why
Actor-Critic、Soft-Q-Learning 是概率推断的特例。
What
- Bellman 最优： Q ∗ ( s , a ) = E [ r + γ max ⁡ a ′ Q ∗ ( s ′ , a ′ ) ∣ s , a ] Q^*(s,a)=\mathbb{E}[r+\gamma\max_{a'}Q^*(s',a')|s,a] Q∗(s,a)=E[r+γmaxa′Q∗(s′,a′)∣s,a]
- 概率视角： log ⁡ p ( τ ) ∝ ∑ t = 0 T log ⁡ π ( a t ∣ s t ) + log ⁡ p ( r t ∣ s t , a t ) \log p(\tau)\propto\sum_{t=0}^T\log\pi(a_t|s_t)+\log p(r_t|s_t,a_t) logp(τ)∝∑t=0Tlogπ(at∣st)+logp(rt∣st,at)
Where
- Soft Actor-Critic 的熵正则化等价于变分推断。
Next
- $Levine, Reinforcement Learning and Control as Probabilistic Inference$

21. 前沿工具箱

工具	场景
Pyro	深度概率编程
TensorFlow Probability	可微分布 & Bijector
NumPyro	JAX 加速
OTT	Optimal Transport Toolbox

22. 一条可行的学习路径

通读 [Bishop, PRML] 第 1--5 章 → 建立框架
边读 D2L 概率章节边复现 VAE → 实战
深入 [Wainwright & Jordan, Graphical Models, Exponential Families, and Variational Inference] → 理论
选择方向：
- 扩散 → 补 SDE
- GAN → 补 OT & 博弈
- Bayes → 补 PAC-Bayes & 非参

23. 小结

概率论之于深度学习，就像微积分之于物理。

你不需要一次性吃完整张地图，但每遇到"为什么"时，知道去哪里查，就能避免把炼丹当玄学。

附录：符号表

符号	含义
E [ ⋅ ] \mathbb{E}[\cdot] E[⋅]	期望
N ( μ , Σ ) \mathcal{N}(\mu,\Sigma) N(μ,Σ)	高斯分布
D KL ( ⋅ ∣ ⋅ ) D_{\text{KL}}(\cdot\|\cdot) DKL(⋅∣⋅)	KL 散度
→ d \xrightarrow{d} d	依分布收敛
∼ \sim ∼	服从分布