深度学习研究者必读:概率论基础知识
"深度学习其实就是用概率语言去描述高维非线性映射。"
0. 阅读指南
- 本文面向已具备本科概率论基础的读者。
- 每个知识点给出:
- 为什么需要(Why)
- 核心概念 & 公式(What)
- 在 DL 里的典型用例(Where)
- 进一步阅读(Next)
- 章节之间呈"由浅入深"的拓扑序;可边看边查 Wikipedia 或 D2L 对应章节。
1. 概率三元组与测度论直觉
- Why
现代深度学习大量使用测度论语言(e.g. Wasserstein GAN、Diffusion)。不懂 σ-代数,很多论文的定理看不懂。 - What
概率空间 ( Ω , F , P ) (\Omega,\mathcal{F},P) (Ω,F,P) 中- Ω \Omega Ω:样本空间
- F \mathcal{F} F:事件 σ-代数
- P P P:概率测度,满足可数可加性
- 随机变量 X : Ω → R X:\Omega\to\mathbb{R} X:Ω→R 是 F / B ( R ) \mathcal{F}/\mathcal{B}(\mathbb{R}) F/B(R) 可测函数
- Where
- 证明 GAN 的"最优判别器"存在性(Radon-Nikodym 导数)。
- 分析 Diffusion Model 的逆过程(Doob-Dynkin 引理)。
- Next
-
Williams, Probability with Martingales\] 第 1--3 章
-
2. 条件概率 & Bayes 定理
- Why
所有后验推断、变分推断、Bayesian Neural Network 的根基。 - What
条件概率:
P ( A ∣ B ) = P ( A ∩ B ) P ( B ) P(A|B)=\frac{P(A\cap B)}{P(B)} P(A∣B)=P(B)P(A∩B)
全概率公式:
P ( A ) = ∑ i P ( A ∣ B i ) P ( B i ) P(A)=\sum_i P(A|B_i)P(B_i) P(A)=i∑P(A∣Bi)P(Bi)
Bayes:
P ( θ ∣ D ) = P ( D ∣ θ ) P ( θ ) P ( D ) P(\theta|D)=\frac{P(D|\theta)P(\theta)}{P(D)} P(θ∣D)=P(D)P(D∣θ)P(θ) - Where
- Variational Auto-Encoder 的 ELBO:
log p θ ( x ) ≥ E q ϕ ( z ∣ x ) [ log p θ ( x , z ) q ϕ ( z ∣ x ) ] \log p_\theta(x)\geq \mathbb{E}{q\phi(z|x)}\!\left[\log\frac{p_\theta(x,z)}{q_\phi(z|x)}\right] logpθ(x)≥Eqϕ(z∣x)[logqϕ(z∣x)pθ(x,z)] - Bayesian Neural Network 的权重后验推断。
- Variational Auto-Encoder 的 ELBO:
- Next
-
Bishop, PRML\] 1.2, 2.1
-
3. 期望、方差、协方差 & 矩
- Why
优化目标几乎都是期望;梯度估计的方差决定收敛速度。 - What
- 期望: E [ X ] = ∫ Ω X ( ω ) d P ( ω ) \mathbb{E}[X]=\int_\Omega X(\omega)\,dP(\omega) E[X]=∫ΩX(ω)dP(ω)
- 方差: V a r [ X ] = E [ ( X − E [ X ] ) 2 ] \mathrm{Var}[X]=\mathbb{E}[(X-\mathbb{E}[X])^2] Var[X]=E[(X−E[X])2]
- 协方差矩阵: C o v ( x ) = E [ ( x − μ ) ( x − μ ) ⊤ ] \mathrm{Cov}(\mathbf{x})=\mathbb{E}[(\mathbf{x}-\boldsymbol{\mu})(\mathbf{x}-\boldsymbol{\mu})^\top] Cov(x)=E[(x−μ)(x−μ)⊤]
- 高阶矩: E [ X k ] \mathbb{E}[X^k] E[Xk] 决定尾行为(heavy-tailed vs sub-Gaussian)。
- Where
- Adam 的 bias-correction: m ^ t = m t / ( 1 − β 1 t ) \hat{m}_t = m_t/(1-\beta_1^t) m^t=mt/(1−β1t) 利用期望迭代公式。
- StyleGAN 的 Perceptual Path Length 基于协方差矩阵的迹。
- Next
-
Casella \& Berger, Statistical Inference\] 2.2--2.3
-
4. 常见分布族速查表
名称 | 密度/概率 | 与 DL 的羁绊 |
---|---|---|
Bernoulli | p k ( 1 − p ) 1 − k p^k(1-p)^{1-k} pk(1−p)1−k | 二元分类输出 |
Categorical | ∏ i p i x i \prod_i p_i^{x_i} ∏ipixi | Softmax 输出 |
Gaussian | $\mathcal{N}(x | \mu,\sigma^2)$ |
Dirichlet | 1 B ( α ) ∏ i x i α i − 1 \frac{1}{B(\boldsymbol{\alpha})}\prod_i x_i^{\alpha_i-1} B(α)1∏ixiαi−1 | Topic Model 先验 |
Gumbel & Concrete | exp ( − ( − log p + G ) ) \exp(-(-\log p + G)) exp(−(−logp+G)) | Gumbel-Softmax 重参数化 |
Laplace | $\frac{1}{2b}\exp!\left(-\frac{ | x-\mu |
Student-t | Γ ( ( ν + 1 ) / 2 ) ν π Γ ( ν / 2 ) ( 1 + x 2 ν ) − ( ν + 1 ) / 2 \frac{\Gamma((\nu+1)/2)}{\sqrt{\nu\pi}\Gamma(\nu/2)}\left(1+\frac{x^2}{\nu}\right)^{-(\nu+1)/2} νπ Γ(ν/2)Γ((ν+1)/2)(1+νx2)−(ν+1)/2 | 鲁棒回归 |
- Next
-
Murphy, Machine Learning: A Probabilistic Perspective\] 2.4
-
5. 信息论三件套
- Why
损失函数(Cross-Entropy、KL、ELBO)全部是信息论量。 - What
- 熵: H ( p ) = − ∑ x p ( x ) log p ( x ) H(p)=-\sum_x p(x)\log p(x) H(p)=−∑xp(x)logp(x)
- 交叉熵: H ( p , q ) = − ∑ x p ( x ) log q ( x ) H(p,q)=-\sum_x p(x)\log q(x) H(p,q)=−∑xp(x)logq(x)
- KL 散度: D KL ( p ∥ q ) = ∑ x p ( x ) log p ( x ) q ( x ) D_{\text{KL}}(p\|q)=\sum_x p(x)\log\frac{p(x)}{q(x)} DKL(p∥q)=∑xp(x)logq(x)p(x)
- 互信息: I ( X ; Y ) = D KL ( p ( x , y ) ∥ p ( x ) p ( y ) ) I(X;Y)=D_{\text{KL}}(p(x,y)\|p(x)p(y)) I(X;Y)=DKL(p(x,y)∥p(x)p(y))
- Where
- CLIP 训练目标: L = − 1 N ∑ i , j log exp ( z i ⊤ z j / τ ) ∑ k exp ( z i ⊤ z k / τ ) \mathcal{L}=-\frac{1}{N}\sum_{i,j} \log\frac{\exp(\mathbf{z}_i^\top \mathbf{z}_j/\tau)}{\sum_k \exp(\mathbf{z}_i^\top \mathbf{z}_k/\tau)} L=−N1∑i,jlog∑kexp(zi⊤zk/τ)exp(zi⊤zj/τ) 本质是最小化对称交叉熵。
- VAE 的 KL 正则项。
- Next
-
Cover \& Thomas, Elements of Information Theory\] 2.1--2.5
-
6. 多元高斯 & 高斯过程
- Why
高斯假设让线性模型变成"核技巧",让深度特征空间变成"高维高斯云"。 - What
- 多元高斯 PDF:
N ( x ∣ μ , Σ ) = 1 ( 2 π ) d / 2 ∣ Σ ∣ 1 / 2 exp ( − 1 2 ( x − μ ) ⊤ Σ − 1 ( x − μ ) ) \mathcal{N}(\mathbf{x}|\boldsymbol{\mu},\boldsymbol{\Sigma})=\frac{1}{(2\pi)^{d/2}|\boldsymbol{\Sigma}|^{1/2}}\exp\!\left(-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^\top\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right) N(x∣μ,Σ)=(2π)d/2∣Σ∣1/21exp(−21(x−μ)⊤Σ−1(x−μ)) - 条件高斯:
p ( x a ∣ x b ) = N ( μ a ∣ b , Σ a ∣ b ) p(\mathbf{x}a|\mathbf{x}b)=\mathcal{N}(\boldsymbol{\mu}{a|b},\boldsymbol{\Sigma}{a|b}) p(xa∣xb)=N(μa∣b,Σa∣b)
其中 μ a ∣ b = μ a + Σ a b Σ b b − 1 ( x b − μ b ) \boldsymbol{\mu}{a|b}=\boldsymbol{\mu}a+\boldsymbol{\Sigma}{ab}\boldsymbol{\Sigma}{bb}^{-1}(\mathbf{x}_b-\boldsymbol{\mu}_b) μa∣b=μa+ΣabΣbb−1(xb−μb) - 高斯过程:任意有限维分布为联合高斯的函数先验。
- 多元高斯 PDF:
- Where
- StyleGAN2 的 W + W+ W+ 空间用高斯假设做 editing。
- GP-LSTM 结合 RNN 与 GP 建模不确定性。
- Next
-
Rasmussen \& Williams, Gaussian Processes for Machine Learning
-
7. 变分推断(VI)
- Why
把"后验"转成"优化",让 Bayes 神经网络可训练。 - What
- ELBO 分解:
log p ( x ) ≥ L ( q ) = E q ( z ) log p ( x , z ) − E q ( z ) log q ( z ) \log p(x)\geq \mathcal{L}(q)=\mathbb{E}{q(z)}\log p(x,z)-\mathbb{E}{q(z)}\log q(z) logp(x)≥L(q)=Eq(z)logp(x,z)−Eq(z)logq(z) - Mean-field: q ( z ) = ∏ i q i ( z i ) q(z)=\prod_i q_i(z_i) q(z)=∏iqi(zi)
- Amortized VI: q ϕ ( z ∣ x ) q_\phi(z|x) qϕ(z∣x) 用神经网络参数化。
- ELBO 分解:
- Where
- VAE、β-VAE、NVAE、Diffusion-VI。
- Next
-
Zhang et al., Advances in Variational Inference\] (2019)
-
8. 蒙特卡洛方法
- Why
高维积分无法解析,只能采样。 - What
- 简单 MC: E [ f ( X ) ] ≈ 1 N ∑ i = 1 N f ( x i ) \mathbb{E}[f(X)]\approx\frac{1}{N}\sum_{i=1}^N f(x_i) E[f(X)]≈N1∑i=1Nf(xi)
- 重要性采样: E [ f ( X ) ] ≈ 1 N ∑ i = 1 N p ( x i ) q ( x i ) f ( x i ) \mathbb{E}[f(X)]\approx\frac{1}{N}\sum_{i=1}^N \frac{p(x_i)}{q(x_i)}f(x_i) E[f(X)]≈N1∑i=1Nq(xi)p(xi)f(xi)
- MCMC:Metropolis-Hastings、Hamiltonian MC、Langevin Dynamics。
- Where
- PixelCNN++ 用重要性采样估计离散分布的交叉熵。
- Diffusion Model 的 DDPM 反向采样即 MCMC。
- Next
-
Neal, MCMC Handbook
-
9. 重参数化技巧(Reparameterization Trick)
- Why
让随机节点可反向传播。 - What
若 z ∼ q ϕ ( z ∣ x ) z\sim q_\phi(z|x) z∼qϕ(z∣x) 可写成 z = g ϕ ( x , ϵ ) , ϵ ∼ p ( ϵ ) z=g_\phi(x,\epsilon),\;\epsilon\sim p(\epsilon) z=gϕ(x,ϵ),ϵ∼p(ϵ),则
∇ ϕ E q ϕ [ f ( z ) ] = E p ( ϵ ) [ ∇ ϕ f ( g ϕ ( x , ϵ ) ) ] \nabla_\phi \mathbb{E}{q\phi}[f(z)]=\mathbb{E}{p(\epsilon)}\!\left[\nabla\phi f(g_\phi(x,\epsilon))\right] ∇ϕEqϕ[f(z)]=Ep(ϵ)[∇ϕf(gϕ(x,ϵ))] - Where
- VAE 的 encoder q ϕ ( z ∣ x ) = N ( z ∣ μ ϕ ( x ) , σ ϕ 2 ( x ) ) q_\phi(z|x)=\mathcal{N}(z|\mu_\phi(x),\sigma^2_\phi(x)) qϕ(z∣x)=N(z∣μϕ(x),σϕ2(x)) 用 z = μ + σ ⊙ ϵ z=\mu+\sigma\odot\epsilon z=μ+σ⊙ϵ。
- Normalizing Flow 的耦合层。
- Next
-
Kingma \& Welling, Auto-Encoding Variational Bayes
-
10. Copula & 高阶依赖
- Why
建模多元非线性、非高斯依赖,提升生成质量。 - What
- Sklar 定理:任意联合分布 F ( x 1 , ... , x d ) = C ( F 1 ( x 1 ) , ... , F d ( x d ) ) F(x_1,\dots,x_d)=C(F_1(x_1),\dots,F_d(x_d)) F(x1,...,xd)=C(F1(x1),...,Fd(xd))
- Gaussian Copula、Vine Copula、Implicit Copula。
- Where
- Tabular GAN(CTGAN、TVAE)用 Copula 处理混合类型特征。
- Next
-
Joe, Dependence Modeling with Copulas
-
11. 随机过程 & 随机微积分
- Why
扩散模型、随机最优控制、SDE-GAN 的数学基础。 - What
- 布朗运动 W t W_t Wt: W t − W s ∼ N ( 0 , t − s ) W_t-W_s\sim\mathcal{N}(0,t-s) Wt−Ws∼N(0,t−s)
- Itô 引理:
d f ( t , X t ) = ∂ f ∂ t d t + ∂ f ∂ x d X t + 1 2 ∂ 2 f ∂ x 2 ( d X t ) 2 df(t,X_t)=\frac{\partial f}{\partial t}\!dt+\frac{\partial f}{\partial x}\!dX_t+\frac{1}{2}\frac{\partial^2 f}{\partial x^2}\!(dX_t)^2 df(t,Xt)=∂t∂fdt+∂x∂fdXt+21∂x2∂2f(dXt)2 - SDE: d X t = μ ( X t , t ) d t + σ ( X t , t ) d W t dX_t=\mu(X_t,t)\,dt+\sigma(X_t,t)\,dW_t dXt=μ(Xt,t)dt+σ(Xt,t)dWt
- Where
- DDPM 的逆向 SDE:
d x = [ f ( x , t ) − g ( t ) 2 ∇ x log p t ( x ) ] d t + g ( t ) d W ˉ t d\mathbf{x}=[f(\mathbf{x},t)-g(t)^2\nabla_\mathbf{x}\log p_t(\mathbf{x})]\,dt+g(t)\,d\bar{W}_t dx=[f(x,t)−g(t)2∇xlogpt(x)]dt+g(t)dWˉt
- DDPM 的逆向 SDE:
- Next
-
Øksendal, Stochastic Differential Equations
-
12. 大数定律 & 中心极限定理
- Why
训练误差为何收敛?batch size 如何影响方差? - What
- LLN: 1 n ∑ i = 1 n X i → a.s. E [ X ] \frac{1}{n}\sum_{i=1}^n X_i\xrightarrow{\text{a.s.}}\mathbb{E}[X] n1∑i=1nXia.s. E[X]
- CLT: n ( 1 n ∑ X i − μ ) → d N ( 0 , σ 2 ) \sqrt{n}\left(\frac{1}{n}\sum X_i-\mu\right)\xrightarrow{d}\mathcal{N}(0,\sigma^2) n (n1∑Xi−μ)d N(0,σ2)
- Where
- SGD 噪声分析: θ t + 1 = θ t − η t ( ∇ L + ξ t ) \boldsymbol{\theta}_{t+1}=\boldsymbol{\theta}_t-\eta_t(\nabla L+\boldsymbol{\xi}_t) θt+1=θt−ηt(∇L+ξt),其中 ξ t \boldsymbol{\xi}_t ξt 近似高斯。
- Next
-
Vershynin, High-Dimensional Probability
-
13. 泛化误差与 PAC-Bayes
- Why
解释为什么大模型不 overfit。 - What
- PAC-Bayes 界:
E Q [ L D ( f ) ] ≤ E Q [ L S ( f ) ] + D KL ( Q ∥ P ) + log n δ 2 ( n − 1 ) \mathbb{E}{Q}[L_D(f)]\leq \mathbb{E}{Q}[L_S(f)]+\sqrt{\frac{D_{\text{KL}}(Q\|P)+\log\frac{n}{\delta}}{2(n-1)}} EQ[LD(f)]≤EQ[LS(f)]+2(n−1)DKL(Q∥P)+logδn - 其中 Q Q Q 为后验分布, P P P 为先验。
- PAC-Bayes 界:
- Where
- 解释 Sharpness-Aware Minimization (SAM) 的泛化界。
- Next
-
Dziugaite \& Roy, Computing Nonvacuous Generalization Bounds
-
14. 尾不等式 & 高维集中
- Why
控制 dropout、mixup、label smoothing 的偏差。 - What
- Hoeffding: P ( ∣ 1 n ∑ X i − μ ∣ ≥ t ) ≤ 2 exp ( − 2 n t 2 ( b − a ) 2 ) \mathbb{P}\!\left(\left|\frac{1}{n}\sum X_i-\mu\right|\geq t\right)\leq 2\exp\!\left(-\frac{2nt^2}{(b-a)^2}\right) P( n1∑Xi−μ ≥t)≤2exp(−(b−a)22nt2)
- McDiarmid:有界差分 ⇒ 集中
- Azuma:鞅差序列 ⇒ 集中
- Where
- 证明 Mixup 的期望风险上界。
- Next
-
Boucheron et al., Concentration Inequalities
-
15. Optimal Transport & Wasserstein 距离
- Why
GAN 的 JS 散度会梯度消失,Wasserstein 距离不会。 - What
- W p ( μ , ν ) = ( inf γ ∈ Π ( μ , ν ) E ( x , y ) ∼ γ ∥ x − y ∥ p ) 1 / p W_p(\mu,\nu)=\left(\inf_{\gamma\in\Pi(\mu,\nu)}\mathbb{E}_{(x,y)\sim\gamma}\|x-y\|^p\right)^{1/p} Wp(μ,ν)=(infγ∈Π(μ,ν)E(x,y)∼γ∥x−y∥p)1/p
- Kantorovich-Rubinstein 对偶:
W 1 ( μ , ν ) = sup ∥ f ∥ L ≤ 1 E μ [ f ] − E ν [ f ] W_1(\mu,\nu)=\sup_{\|f\|L\leq 1}\mathbb{E}\mu[f]-\mathbb{E}_\nu[f] W1(μ,ν)=∥f∥L≤1supEμ[f]−Eν[f]
- Where
- WGAN-GP 的 gradient penalty。
- Next
-
Peyré \& Cuturi, Computational Optimal Transport
-
16. 自回归模型 & 因果推断
- Why
Transformer 的 Mask、Diffusion 的 Causal 链式法则。 - What
- 链式法则: p ( x 1 : n ) = ∏ i = 1 n p ( x i ∣ x < i ) p(x_{1:n})=\prod_{i=1}^n p(x_i|x_{<i}) p(x1:n)=∏i=1np(xi∣x<i)
- 干预分布: p ( y ∣ do ( X = x ) ) p(y|\text{do}(X=x)) p(y∣do(X=x))
- Where
- GPT 的 left-to-right 因子分解。
- Next
-
Pearl, Causality
-
17. 隐变量模型 & EM 算法
- Why
GMM、HMM、VAE 的底层框架。 - What
- 隐变量 z z z: p ( x ) = ∫ p ( x ∣ z ) p ( z ) d z p(x)=\int p(x|z)p(z)\,dz p(x)=∫p(x∣z)p(z)dz
- EM:
E 步: q ( t ) ( z ) = p ( z ∣ x , θ ( t ) ) q^{(t)}(z)=p(z|x,\theta^{(t)}) q(t)(z)=p(z∣x,θ(t))
M 步: θ ( t + 1 ) = arg max θ E q ( t ) [ log p ( x , z ∣ θ ) ] \theta^{(t+1)}=\arg\max_\theta \mathbb{E}_{q^{(t)}}[\log p(x,z|\theta)] θ(t+1)=argmaxθEq(t)[logp(x,z∣θ)]
- Where
- 深度高斯混合 VAE。
- Next
-
Bishop, PRML\] 9.2--9.4
-
18. 非参数 Bayes
- Why
让模型大小随数据增长,避免手动调参。 - What
- Dirichlet Process: G ∼ D P ( α , G 0 ) G\sim\mathrm{DP}(\alpha,G_0) G∼DP(α,G0)
- Chinese Restaurant Process:先验聚类数无限。
- Where
- Infinite Mixture VAE。
- Next
-
Ghahramani, Nonparametric Bayesian Methods
-
19. 随机矩阵理论
- Why
解释神经正切核(NTK)的谱分布、初始化方差。 - What
- Marchenko-Pastur 分布:
f λ ( x ) = 1 2 π λ x ( b − x ) ( x − a ) , a , b = ( 1 ∓ λ ) 2 f_\lambda(x)=\frac{1}{2\pi\lambda x}\sqrt{(b-x)(x-a)},\;a,b=(1\mp\sqrt{\lambda})^2 fλ(x)=2πλx1(b−x)(x−a) ,a,b=(1∓λ )2
- Marchenko-Pastur 分布:
- Where
- 计算 Xavier/Kaiming 初始化的临界方差。
- Next
-
Tao, Topics in Random Matrix Theory
-
20. 强化学习中的 Bellman 方程
- Why
Actor-Critic、Soft-Q-Learning 是概率推断的特例。 - What
- Bellman 最优: Q ∗ ( s , a ) = E [ r + γ max a ′ Q ∗ ( s ′ , a ′ ) ∣ s , a ] Q^*(s,a)=\mathbb{E}[r+\gamma\max_{a'}Q^*(s',a')|s,a] Q∗(s,a)=E[r+γmaxa′Q∗(s′,a′)∣s,a]
- 概率视角: log p ( τ ) ∝ ∑ t = 0 T log π ( a t ∣ s t ) + log p ( r t ∣ s t , a t ) \log p(\tau)\propto\sum_{t=0}^T\log\pi(a_t|s_t)+\log p(r_t|s_t,a_t) logp(τ)∝∑t=0Tlogπ(at∣st)+logp(rt∣st,at)
- Where
- Soft Actor-Critic 的熵正则化等价于变分推断。
- Next
-
Levine, Reinforcement Learning and Control as Probabilistic Inference
-
21. 前沿工具箱
工具 | 场景 |
---|---|
Pyro | 深度概率编程 |
TensorFlow Probability | 可微分布 & Bijector |
NumPyro | JAX 加速 |
OTT | Optimal Transport Toolbox |
22. 一条可行的学习路径
- 通读 [Bishop, PRML] 第 1--5 章 → 建立框架
- 边读 D2L 概率章节 边复现 VAE → 实战
- 深入 [Wainwright & Jordan, Graphical Models, Exponential Families, and Variational Inference] → 理论
- 选择方向:
- 扩散 → 补 SDE
- GAN → 补 OT & 博弈
- Bayes → 补 PAC-Bayes & 非参
23. 小结
概率论之于深度学习,就像微积分之于物理。
你不需要一次性吃完整张地图,但每遇到"为什么"时,知道去哪里查,就能避免把炼丹当玄学。
附录:符号表
符号 | 含义 |
---|---|
E [ ⋅ ] \mathbb{E}[\cdot] E[⋅] | 期望 |
N ( μ , Σ ) \mathcal{N}(\mu,\Sigma) N(μ,Σ) | 高斯分布 |
D KL ( ⋅ ∣ ⋅ ) D_{\text{KL}}(\cdot|\cdot) DKL(⋅∣⋅) | KL 散度 |
→ d \xrightarrow{d} d | 依分布收敛 |
∼ \sim ∼ | 服从分布 |