贝叶斯定理

1.知识前驱

1. 全概率公式

它允许我们计算一个事件发生的总概率，这个事件可以通过几个互斥的途径发生。

事件 B B B 发生的总概率是 B B B 在每个互斥情况下发生的概率之和。每个"情况" A i A_i Ai 都被视为一个可能的路径，通过这个路径 B B B 可以发生。

定义

全概率公式可以表述为：如果事件 A 1 , A 2 , ... , A n A_1, A_2, \ldots, A_n A1,A2,...,An 构成了样本空间的一个划分，即它们互斥且完全穷尽（即它们不能同时发生，且它们的并集是整个样本空间），那么任何事件 B B B 的概率可以表示为：

P ( B ) = P ( B ∣ A 1 ) P ( A 1 ) + P ( B ∣ A 2 ) P ( A 2 ) + ⋯ + P ( B ∣ A n ) P ( A n ) P(B) = P(B|A_1)P(A_1) + P(B|A_2)P(A_2) + \cdots + P(B|A_n)P(A_n) P(B)=P(B∣A1)P(A1)+P(B∣A2)P(A2)+⋯+P(B∣An)P(An)

这里：

P ( B ∣ A i ) P(B|A_i) P(B∣Ai) 是在事件 A i A_i Ai 发生的条件下事件 B B B 发生的条件概率。
P ( A i ) P(A_i) P(Ai) 是事件 A i A_i Ai 发生的概率。

2. 二项分布（Binomial Distribution）

二项分布是一种离散概率分布，它描述了在固定次数的独立伯努利试验中成功的次数，其中每次试验成功的概率相同。

参数：

n n n：试验次数，必须是一个正整数。
p p p：每次试验成功的概率，取值范围在0到1之间。

概率质量函数（PMF） ：
P ( X = k ) = ( n k ) p k ( 1 − p ) n − k P(X = k) = \binom{n}{k} p^k (1-p)^{n-k} P(X=k)=(kn)pk(1−p)n−k

其中， X X X 是表示成功次数的随机变量， k k k 是成功的次数， ( n k ) \binom{n}{k} (kn) 是组合数，表示从 n n n 次试验中选择 k k k 次成功的方式数。

特点：

二项分布是离散的。
它用于模拟有固定次数试验和只有两种可能结果（成功或失败）的场景。
当 n n n 很大且 p p p 很小的时候，二项分布可以用泊松分布来近似。

3. 正态分布（Normal Distribution）

正态分布，也称为高斯分布，是一种连续概率分布。

参数：

μ \mu μ：分布的均值（期望值），决定了分布的中心位置。
σ 2 \sigma^2 σ2：分布的方差，决定了分布的离散程度；标准差 σ \sigma σ 是方差的平方根。

概率密度函数（PDF） ：
f ( x ∣ μ , σ 2 ) = 1 2 π σ 2 exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) f(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right) f(x∣μ,σ2)=2πσ2 1exp(−2σ2(x−μ)2)

其中， x x x 是随机变量的取值。

特点：

正态分布是连续的。
它的形状是对称的，均值 μ \mu μ 决定了分布的中心，标准差 σ \sigma σ 决定了分布的宽度。
正态分布在其均值附近的值最为集中，随着距离均值的增加，概率密度逐渐减小。
根据中心极限定理，许多独立随机变量的和（或平均值）在样本量足够大时近似正态分布，无论这些变量本身是什么分布。

二项分布适用于离散型随机变量

正态分布适用于连续型随机变量

2. 贝叶斯定理

贝叶斯定理是贝叶斯统计学的核心，它描述了如何根据新的证据更新对假设的概率估计。贝叶斯定理的公式是：

P ( H ∣ E ) = P ( E ∣ H ) ⋅ P ( H ) P ( E ) P(H|E) = \frac{P(E|H) \cdot P(H)}{P(E)} P(H∣E)=P(E)P(E∣H)⋅P(H)

其中：

P ( H ∣ E ) P(H|E) P(H∣E) 是在证据 E E E 发生的条件下假设 H H H 为真的后验概率。
P ( E ∣ H ) P(E|H) P(E∣H) 是在假设 H H H 为真的条件下证据 E E E 发生的可能性，也称为似然性。
P ( H ) P(H) P(H) 是在考虑任何证据之前假设 H H H 为真的先验概率。
P ( E ) P(E) P(E) 是证据 E E E 发生的总概率，可以通过全概率公式计算。

推导贝叶斯定理

贝叶斯定理可以从条件概率的定义出发进行推导。根据条件概率的定义，我们有：

P ( H ∩ E ) = P ( H ) ⋅ P ( E ∣ H ) P(H \cap E) = P(H) \cdot P(E|H) P(H∩E)=P(H)⋅P(E∣H)

这里， P ( H ∩ E ) P(H \cap E) P(H∩E) 表示假设 H H H 和证据 E E E 同时发生的概率。

同样地，我们也可以从 E E E 的角度来表达这个联合概率：

P ( H ∩ E ) = P ( E ) ⋅ P ( H ∣ E ) P(H \cap E) = P(E) \cdot P(H|E) P(H∩E)=P(E)⋅P(H∣E)

现在，我们可以将两个表达式设置为相等，因为它们表示的是同一个联合概率：

P ( H ) ⋅ P ( E ∣ H ) = P ( E ) ⋅ P ( H ∣ E ) P(H) \cdot P(E|H) = P(E) \cdot P(H|E) P(H)⋅P(E∣H)=P(E)⋅P(H∣E)

接下来，我们解出 P ( H ∣ E ) P(H|E) P(H∣E)，即在证据 E E E 发生的情况下假设 H H H 为真的概率：

P ( H ∣ E ) = P ( H ) ⋅ P ( E ∣ H ) P ( E ) P(H|E) = \frac{P(H) \cdot P(E|H)}{P(E)} P(H∣E)=P(E)P(H)⋅P(E∣H)

这就是贝叶斯定理的基本形式。它表明后验概率 P ( H ∣ E ) P(H|E) P(H∣E) 与先验概率 P ( H ) P(H) P(H) 和似然性 P ( E ∣ H ) P(E|H) P(E∣H) 的乘积成正比，并且与证据 E E E 发生的总概率 P ( E ) P(E) P(E) 成反比。

3. 先验分布

先验分布是在考虑任何数据之前对参数的初始概率分布。它反映了我们对参数的先验信念或知识。先验分布可以是主观的，也可以基于以往的研究或数据。

4. 似然函数

似然函数是给定参数下观察到数据的概率。它是贝叶斯定理中的关键组成部分，用于量化模型参数与观测数据之间的匹配程度。

似然函数是统计模型中的一个重要概念，它衡量了在给定一组参数的情况下，观测到特定数据样本的概率。数学上，如果我们有一个参数向量 θ \theta θ 和一个数据样本 D D D，似然函数 L ( θ ∣ D ) L(\theta | D) L(θ∣D) 定义为：

L ( θ ∣ D ) = P ( D ∣ θ ) L(\theta | D) = P(D | \theta) L(θ∣D)=P(D∣θ)

这里：

L ( θ ∣ D ) L(\theta | D) L(θ∣D) 是似然函数。
θ \theta θ 是模型参数。
D D D 是观测到的数据。
P ( D ∣ θ ) P(D | \theta) P(D∣θ) 是给定参数 θ \theta θ 下数据 D D D 的概率。

似然函数的作用

参数估计：
- 似然函数用于估计模型参数。在最大似然估计（MLE）中，我们找到使似然函数最大化的参数值。
模型比较：
- 在模型选择中，似然函数用于比较不同模型对数据的拟合程度。例如，通过比较两个模型的似然比来决定哪个模型更好。
量化不确定性：
- 似然函数帮助量化在给定参数下观测数据的不确定性。

似然函数与概率密度函数（PDF）

对于连续型随机变量，似然函数通常与概率密度函数（PDF）相关。如果我们的数据 D D D 由多个独立同分布（i.i.d.）的观测组成，似然函数可以表示为：

L ( θ ∣ D ) = ∏ i = 1 n f ( x i ∣ θ ) L(\theta | D) = \prod_{i=1}^{n} f(x_i | \theta) L(θ∣D)=∏i=1nf(xi∣θ)

其中：

f ( x i ∣ θ ) f(x_i | \theta) f(xi∣θ) 是单个观测 x i x_i xi 的概率密度函数。
n n n 是观测的数量。

似然函数与对数似然函数

由于似然函数的乘积形式可能导致数值计算问题（特别是当观测数量很大时），通常使用对数似然函数，它将乘积转换为求和：

ℓ ( θ ∣ D ) = log ⁡ L ( θ ∣ D ) = ∑ i = 1 n log ⁡ f ( x i ∣ θ ) \ell(\theta | D) = \log L(\theta | D) = \sum_{i=1}^{n} \log f(x_i | \theta) ℓ(θ∣D)=logL(θ∣D)=∑i=1nlogf(xi∣θ)

对数似然函数更容易处理，并且在数学上更稳定

5. 后验分布

后验分布是在考虑了数据（证据）之后对参数的更新概率分布。它是通过贝叶斯定理结合先验分布和似然函数得到的。

在贝叶斯统计中，后验分布 P ( θ ∣ D ) P(\theta | D) P(θ∣D) 是通过贝叶斯定理结合先验分布 P ( θ ) P(\theta) P(θ) 和似然函数 P ( D ∣ θ ) P(D | \theta) P(D∣θ) 得到的：

P ( θ ∣ D ) = P ( D ∣ θ ) ⋅ P ( θ ) P ( D ) P(\theta | D) = \frac{P(D | \theta) \cdot P(\theta)}{P(D)} P(θ∣D)=P(D)P(D∣θ)⋅P(θ)

这里：

P ( D ∣ θ ) P(D | \theta) P(D∣θ) 是似然函数。
P ( θ ) P(\theta) P(θ) 是先验分布。
P ( D ) P(D) P(D) 是证据或边际似然，它是归一化常数，确保后验分布的积分为1。

似然函数的形式

似然函数的形式取决于数据的性质和模型的假设。例如：

对于正态分布数据，似然函数是正态分布的概率密度函数。
对于二项分布数据，似然函数是二项分布的概率质量函数。

正态分布数据的似然函数

对于正态分布数据，如果我们有一个样本 D = { x 1 , x 2 , ... , x n } D = \{x_1, x_2, \ldots, x_n\} D={x1,x2,...,xn}，其中每个 x i x_i xi 是独立同分布（i.i.d.）的正态随机变量，其均值为 μ \mu μ，方差为 σ 2 \sigma^2 σ2，那么似然函数 L ( μ , σ 2 ∣ D ) L(\mu, \sigma^2 | D) L(μ,σ2∣D) 是各个数据点概率密度函数（PDF）的乘积：

L ( μ , σ 2 ∣ D ) = ∏ i = 1 n 1 2 π σ 2 exp ⁡ ( − ( x i − μ ) 2 2 σ 2 ) L(\mu, \sigma^2 | D) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x_i - \mu)^2}{2\sigma^2}\right) L(μ,σ2∣D)=∏i=1n2πσ2 1exp(−2σ2(xi−μ)2)

这个乘积可以简化为：

L ( μ , σ 2 ∣ D ) = ( 1 2 π σ 2 ) n exp ⁡ ( − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 ) L(\mu, \sigma^2 | D) = \left(\frac{1}{\sqrt{2\pi\sigma^2}}\right)^n \exp\left(-\frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i - \mu)^2\right) L(μ,σ2∣D)=(2πσ2 1)nexp(−2σ21∑i=1n(xi−μ)2)

在实际应用中，我们通常使用对数似然函数来避免数值计算中的下溢问题，并且对数变换将乘积转换为求和，更容易处理：

ℓ ( μ , σ 2 ∣ D ) = log ⁡ L ( μ , σ 2 ∣ D ) = − n 2 log ⁡ ( 2 π ) − n log ⁡ ( σ ) − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 \ell(\mu, \sigma^2 | D) = \log L(\mu, \sigma^2 | D) = -\frac{n}{2} \log(2\pi) - n \log(\sigma) - \frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i - \mu)^2 ℓ(μ,σ2∣D)=logL(μ,σ2∣D)=−2nlog(2π)−nlog(σ)−2σ21∑i=1n(xi−μ)2

二项分布数据的似然函数

对于二项分布数据，如果我们有 n n n 次独立的伯努利试验，每次试验成功的概率为 θ \theta θ，并且我们观测到 k k k 次成功，那么似然函数 L ( θ ∣ D ) L(\theta | D) L(θ∣D) 是二项分布的概率质量函数（PMF）：

L ( θ ∣ D ) = ( n k ) θ k ( 1 − θ ) n − k L(\theta | D) = \binom{n}{k} \theta^k (1-\theta)^{n-k} L(θ∣D)=(kn)θk(1−θ)n−k

这里：

( n k ) \binom{n}{k} (kn) 是二项式系数，表示从 n n n 次试验中选择 k k k 次成功的方式数。
θ k \theta^k θk 是 k k k 次成功的概率。
( 1 − θ ) n − k (1-\theta)^{n-k} (1−θ)n−k 是 n − k n-k n−k 次失败的概率。

二项分布的对数似然函数是：

ℓ ( θ ∣ D ) = log ⁡ L ( θ ∣ D ) = log ⁡ ( n k ) + k log ⁡ θ + ( n − k ) log ⁡ ( 1 − θ ) \ell(\theta | D) = \log L(\theta | D) = \log \binom{n}{k} + k \log \theta + (n-k) \log (1-\theta) ℓ(θ∣D)=logL(θ∣D)=log(kn)+klogθ+(n−k)log(1−θ)

在贝叶斯框架中，我们可以使用这些似然函数与先验分布结合，通过贝叶斯定理更新后验分布。对于正态分布数据，后验分布将取决于 μ \mu μ 和 σ 2 \sigma^2 σ2 的先验分布；对于二项分布数据，后验分布将取决于 θ \theta θ 的先验分布。这些后验分布允许我们对参数进行推断，并量化参数的不确定性。

6. 边缘似然（模型选择）

边缘似然是给定模型下数据的总概率。它可以通过对所有可能的参数值进行积分来计算。边缘似然在模型选择中非常重要，因为它允许我们比较不同模型对数据的拟合程度。

它表示在给定模型下观测到数据的总概率。边缘似然的计算涉及对所有可能的参数值进行积分（对于连续参数）或求和（对于离散参数），这通常由模型的先验分布加权。

边缘似然的计算

对于连续参数，边缘似然 P ( D ) P(D) P(D) 由下式给出：

P ( D ) = ∫ P ( D ∣ θ ) P ( θ ) d θ P(D) = \int P(D | \theta) P(\theta) \, d\theta P(D)=∫P(D∣θ)P(θ)dθ

其中：

P ( D ∣ θ ) P(D | \theta) P(D∣θ) 是似然函数，表示在给定参数 θ \theta θ 下观测到数据 D D D 的概率。
P ( θ ) P(\theta) P(θ) 是参数 θ \theta θ 的先验分布。
积分是对所有可能的 θ \theta θ 值进行的。

对于离散参数，边缘似然是：

P ( D ) = ∑ P ( D ∣ θ ) P ( θ ) P(D) = \sum P(D | \theta) P(\theta) P(D)=∑P(D∣θ)P(θ)

其中求和是对所有可能的 θ \theta θ 值进行的。

边缘似然在模型选择中的作用

边缘似然用于比较不同的模型对同一数据集的拟合程度。在模型选择中，我们通常比较两个或多个模型的边缘似然值。模型的边缘似然值越高，表示该模型对数据的拟合越好。

比较模型

比较两个模型 M 1 M_1 M1 和 M 2 M_2 M2 的边缘似然时，我们计算模型的相对证据，即贝叶斯因子：

贝叶斯因子 = P ( D ∣ M 1 ) P ( D ∣ M 2 ) \text{贝叶斯因子} = \frac{P(D | M_1)}{P(D | M_2)} 贝叶斯因子=P(D∣M2)P(D∣M1)

如果贝叶斯因子大于1，它表明模型 M 1 M_1 M1 比模型 M 2 M_2 M2 更可能；如果小于1，则表明模型 M 2 M_2 M2 更可能。

7. 共轭先验

共轭先验是指先验分布和后验分布属于同一家族的分布。这意味着后验分布的形式与先验分布相同，只是参数不同。例如，对于二项分布的似然函数，共轭先验是贝塔分布。

8. 贝叶斯推断的步骤

定义模型：选择一个概率模型来描述数据的生成过程。
指定先验：为模型参数选择一个先验分布。
计算似然：根据模型计算给定参数下数据的似然性。
更新后验：使用贝叶斯定理结合先验和似然来更新后验分布。
做出决策：基于后验分布进行预测或决策。

9. 贝叶斯推断的挑战

计算复杂性：后验分布可能难以直接计算，特别是当模型复杂或数据量大时。
先验选择：先验的选择可能会影响后验分布，特别是在数据较少时。

10. 贝叶斯推断的工具

马尔可夫链蒙特卡洛（MCMC）

一种通过模拟随机样本来近似后验分布的方法。

马尔可夫链蒙特卡洛（Markov Chain Monte Carlo，简称MCMC）方法是一类强大的算法，它们用于从复杂的概率分布中生成随机样本，尤其是当这些分布难以直接抽样时。它们可以用来近似后验分布，即使这些分布的解析形式未知或难以计算。

即：一种通过模拟随机样本来近似后验分布的方法。

MCMC的工作原理

MCMC方法通过构建一个马尔可夫链来工作，这个马尔可夫链是一个随机过程，其下一个状态的概率分布仅依赖于当前状态。通过设计这个链，使其在长期运行后，其状态的分布收敛到我们想要抽样的目标分布（例如后验分布）。

MCMC的关键步骤

初始化：
- 选择一个初始状态 x 0 x_0 x0。
迭代过程：
- 从当前状态 x t x_t xt 开始，提出一个新状态 x ′ x' x′，这个提议可以通过各种方法生成，例如随机游走或更复杂的方法。
- 计算接受概率 α \alpha α，这是新状态被接受的概率，由下式给出：
  α = min ⁡ ( 1 , P ( x ′ ) Q ( x ∣ x ′ ) P ( x ) Q ( x ′ ∣ x ) ) \alpha = \min\left(1, \frac{P(x')Q(x|x')}{P(x)Q(x'|x)}\right) α=min(1,P(x)Q(x′∣x)P(x′)Q(x∣x′))
  其中 P P P 是目标分布， Q Q Q 是提议分布。
接受或拒绝：
- 生成一个均匀随机数 u u u 在区间 ([0, 1])。
- 如果 u ≤ α u \leq \alpha u≤α，则接受新状态 x ′ x' x′，即设置 x t + 1 = x ′ x_{t+1} = x' xt+1=x′。
- 如果 u > α u > \alpha u>α，则拒绝新状态，保持当前状态不变，即设置 x t + 1 = x t x_{t+1} = x_t xt+1=xt。
重复：
- 重复步骤2和3多次，以生成足够多的样本。
收敛和混合：
- 随着时间的推移，马尔可夫链的状态将收敛到目标分布，前提是链是不可约的和非周期的，并且满足详细的平衡条件。

变分推断

一种通过优化一个简单分布来近似后验分布的方法。

11.焦糖板栗（例子）

假设我们有一个装满球的袋子，其中30%是红球，70%是蓝球。我们随机抽取一个球，发现它是红色的。我们想计算这个袋子最初是装红球的袋子的概率，假设我们有两种类型的袋子：一种装有30%的红球和70%的蓝球，另一种装有80%的红球和20%的蓝球。

让我们定义：

A 1 A_1 A1：袋子是第一种类型（30%红球，70%蓝球）。
A 2 A_2 A2：袋子是第二种类型（80%红球，20%蓝球）。
B B B：我们抽取了一个红球。

我们需要找到 P ( A 1 ∣ B ) P(A_1|B) P(A1∣B) 和 P ( A 2 ∣ B ) P(A_2|B) P(A2∣B)。

使用贝叶斯定理：

P ( A 1 ∣ B ) = P ( B ∣ A 1 ) ⋅ P ( A 1 ) P ( B ) P(A_1|B) = \frac{P(B|A_1) \cdot P(A_1)}{P(B)} P(A1∣B)=P(B)P(B∣A1)⋅P(A1)
P ( A 2 ∣ B ) = P ( B ∣ A 2 ) ⋅ P ( A 2 ) P ( B ) P(A_2|B) = \frac{P(B|A_2) \cdot P(A_2)}{P(B)} P(A2∣B)=P(B)P(B∣A2)⋅P(A2)

其中：

P ( A 1 ) = P ( A 2 ) = 0.5 P(A_1) = P(A_2) = 0.5 P(A1)=P(A2)=0.5（因为我们假设两种袋子的可能性相等）。
P ( B ∣ A 1 ) = 0.3 P(B|A_1) = 0.3 P(B∣A1)=0.3（第一种袋子中抽到红球的概率）。
P ( B ∣ A 2 ) = 0.8 P(B|A_2) = 0.8 P(B∣A2)=0.8（第二种袋子中抽到红球的概率）。

为了找到 P ( B ) P(B) P(B)，我们使用全概率公式：

P ( B ) = P ( B ∣ A 1 ) ⋅ P ( A 1 ) + P ( B ∣ A 2 ) ⋅ P ( A 2 ) P(B) = P(B|A_1) \cdot P(A_1) + P(B|A_2) \cdot P(A_2) P(B)=P(B∣A1)⋅P(A1)+P(B∣A2)⋅P(A2)
P ( B ) = 0.3 ⋅ 0.5 + 0.8 ⋅ 0.5 = 0.55 P(B) = 0.3 \cdot 0.5 + 0.8 \cdot 0.5 = 0.55 P(B)=0.3⋅0.5+0.8⋅0.5=0.55

现在我们可以计算后验概率：

P ( A 1 ∣ B ) = 0.3 ⋅ 0.5 0.55 = 0.15 0.55 ≈ 0.2727 P(A_1|B) = \frac{0.3 \cdot 0.5}{0.55} = \frac{0.15}{0.55} \approx 0.2727 P(A1∣B)=0.550.3⋅0.5=0.550.15≈0.2727
P ( A 2 ∣ B ) = 0.8 ⋅ 0.5 0.55 = 0.4 0.55 ≈ 0.7273 P(A_2|B) = \frac{0.8 \cdot 0.5}{0.55} = \frac{0.4}{0.55} \approx 0.7273 P(A2∣B)=0.550.8⋅0.5=0.550.4≈0.7273

所以，如果我们抽取了一个红球，这个袋子是第二种类型（80%红球，20%蓝球）的概率大约是72.73%。