贝叶斯定理

贝叶斯定理

1.知识前驱

1. 全概率公式

它允许我们计算一个事件发生的总概率,这个事件可以通过几个互斥的途径发生。

事件 B B B 发生的总概率是 B B B 在每个互斥情况下发生的概率之和。每个"情况" A i A_i Ai 都被视为一个可能的路径,通过这个路径 B B B 可以发生。

定义

全概率公式可以表述为:如果事件 A 1 , A 2 , ... , A n A_1, A_2, \ldots, A_n A1,A2,...,An 构成了样本空间的一个划分,即它们互斥且完全穷尽(即它们不能同时发生,且它们的并集是整个样本空间),那么任何事件 B B B 的概率可以表示为:

P ( B ) = P ( B ∣ A 1 ) P ( A 1 ) + P ( B ∣ A 2 ) P ( A 2 ) + ⋯ + P ( B ∣ A n ) P ( A n ) P(B) = P(B|A_1)P(A_1) + P(B|A_2)P(A_2) + \cdots + P(B|A_n)P(A_n) P(B)=P(B∣A1)P(A1)+P(B∣A2)P(A2)+⋯+P(B∣An)P(An)

这里:

  • P ( B ∣ A i ) P(B|A_i) P(B∣Ai) 是在事件 A i A_i Ai 发生的条件下事件 B B B 发生的条件概率。
  • P ( A i ) P(A_i) P(Ai) 是事件 A i A_i Ai 发生的概率。

2. 二项分布(Binomial Distribution)

二项分布是一种离散概率分布,它描述了在固定次数的独立伯努利试验中成功的次数,其中每次试验成功的概率相同。

参数

  • n n n:试验次数,必须是一个正整数。
  • p p p:每次试验成功的概率,取值范围在0到1之间。

概率质量函数(PMF)
P ( X = k ) = ( n k ) p k ( 1 − p ) n − k P(X = k) = \binom{n}{k} p^k (1-p)^{n-k} P(X=k)=(kn)pk(1−p)n−k

其中, X X X 是表示成功次数的随机变量, k k k 是成功的次数, ( n k ) \binom{n}{k} (kn) 是组合数,表示从 n n n 次试验中选择 k k k 次成功的方式数。

特点

  • 二项分布是离散的。
  • 它用于模拟有固定次数试验和只有两种可能结果(成功或失败)的场景。
  • 当 n n n 很大且 p p p 很小的时候,二项分布可以用泊松分布来近似。

3. 正态分布(Normal Distribution)

正态分布,也称为高斯分布,是一种连续概率分布。

参数

  • μ \mu μ:分布的均值(期望值),决定了分布的中心位置。
  • σ 2 \sigma^2 σ2:分布的方差,决定了分布的离散程度;标准差 σ \sigma σ 是方差的平方根。

概率密度函数(PDF)
f ( x ∣ μ , σ 2 ) = 1 2 π σ 2 exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) f(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right) f(x∣μ,σ2)=2πσ2 1exp(−2σ2(x−μ)2)

其中, x x x 是随机变量的取值。

特点

  • 正态分布是连续的。
  • 它的形状是对称的,均值 μ \mu μ 决定了分布的中心,标准差 σ \sigma σ 决定了分布的宽度。
  • 正态分布在其均值附近的值最为集中,随着距离均值的增加,概率密度逐渐减小。
  • 根据中心极限定理,许多独立随机变量的和(或平均值)在样本量足够大时近似正态分布,无论这些变量本身是什么分布。

二项分布适用于离散型随机变量

正态分布适用于连续型随机变量

2. 贝叶斯定理

贝叶斯定理是贝叶斯统计学的核心,它描述了如何根据新的证据更新对假设的概率估计。贝叶斯定理的公式是:

P ( H ∣ E ) = P ( E ∣ H ) ⋅ P ( H ) P ( E ) P(H|E) = \frac{P(E|H) \cdot P(H)}{P(E)} P(H∣E)=P(E)P(E∣H)⋅P(H)

其中:

  • P ( H ∣ E ) P(H|E) P(H∣E) 是在证据 E E E 发生的条件下假设 H H H 为真的后验概率。
  • P ( E ∣ H ) P(E|H) P(E∣H) 是在假设 H H H 为真的条件下证据 E E E 发生的可能性,也称为似然性。
  • P ( H ) P(H) P(H) 是在考虑任何证据之前假设 H H H 为真的先验概率。
  • P ( E ) P(E) P(E) 是证据 E E E 发生的总概率,可以通过全概率公式计算。

推导贝叶斯定理

贝叶斯定理可以从条件概率的定义出发进行推导。根据条件概率的定义,我们有:

P ( H ∩ E ) = P ( H ) ⋅ P ( E ∣ H ) P(H \cap E) = P(H) \cdot P(E|H) P(H∩E)=P(H)⋅P(E∣H)

这里, P ( H ∩ E ) P(H \cap E) P(H∩E) 表示假设 H H H 和证据 E E E 同时发生的概率。

同样地,我们也可以从 E E E 的角度来表达这个联合概率:

P ( H ∩ E ) = P ( E ) ⋅ P ( H ∣ E ) P(H \cap E) = P(E) \cdot P(H|E) P(H∩E)=P(E)⋅P(H∣E)

现在,我们可以将两个表达式设置为相等,因为它们表示的是同一个联合概率:

P ( H ) ⋅ P ( E ∣ H ) = P ( E ) ⋅ P ( H ∣ E ) P(H) \cdot P(E|H) = P(E) \cdot P(H|E) P(H)⋅P(E∣H)=P(E)⋅P(H∣E)

接下来,我们解出 P ( H ∣ E ) P(H|E) P(H∣E),即在证据 E E E 发生的情况下假设 H H H 为真的概率:

P ( H ∣ E ) = P ( H ) ⋅ P ( E ∣ H ) P ( E ) P(H|E) = \frac{P(H) \cdot P(E|H)}{P(E)} P(H∣E)=P(E)P(H)⋅P(E∣H)

这就是贝叶斯定理的基本形式。它表明后验概率 P ( H ∣ E ) P(H|E) P(H∣E) 与先验概率 P ( H ) P(H) P(H) 和似然性 P ( E ∣ H ) P(E|H) P(E∣H) 的乘积成正比,并且与证据 E E E 发生的总概率 P ( E ) P(E) P(E) 成反比。

3. 先验分布

先验分布是在考虑任何数据之前对参数的初始概率分布。它反映了我们对参数的先验信念或知识。先验分布可以是主观的,也可以基于以往的研究或数据。

4. 似然函数

似然函数是给定参数下观察到数据的概率。它是贝叶斯定理中的关键组成部分,用于量化模型参数与观测数据之间的匹配程度。

似然函数是统计模型中的一个重要概念,它衡量了在给定一组参数的情况下,观测到特定数据样本的概率。数学上,如果我们有一个参数向量 θ \theta θ 和一个数据样本 D D D,似然函数 L ( θ ∣ D ) L(\theta | D) L(θ∣D) 定义为:

L ( θ ∣ D ) = P ( D ∣ θ ) L(\theta | D) = P(D | \theta) L(θ∣D)=P(D∣θ)

这里:

  • L ( θ ∣ D ) L(\theta | D) L(θ∣D) 是似然函数。
  • θ \theta θ 是模型参数。
  • D D D 是观测到的数据。
  • P ( D ∣ θ ) P(D | \theta) P(D∣θ) 是给定参数 θ \theta θ 下数据 D D D 的概率。

似然函数的作用

  1. 参数估计

    • 似然函数用于估计模型参数。在最大似然估计(MLE)中,我们找到使似然函数最大化的参数值。
  2. 模型比较

    • 在模型选择中,似然函数用于比较不同模型对数据的拟合程度。例如,通过比较两个模型的似然比来决定哪个模型更好。
  3. 量化不确定性

    • 似然函数帮助量化在给定参数下观测数据的不确定性。

似然函数与概率密度函数(PDF)

对于连续型随机变量,似然函数通常与概率密度函数(PDF)相关。如果我们的数据 D D D 由多个独立同分布(i.i.d.)的观测组成,似然函数可以表示为:

L ( θ ∣ D ) = ∏ i = 1 n f ( x i ∣ θ ) L(\theta | D) = \prod_{i=1}^{n} f(x_i | \theta) L(θ∣D)=∏i=1nf(xi∣θ)

其中:

  • f ( x i ∣ θ ) f(x_i | \theta) f(xi∣θ) 是单个观测 x i x_i xi 的概率密度函数。
  • n n n 是观测的数量。

似然函数与对数似然函数

由于似然函数的乘积形式可能导致数值计算问题(特别是当观测数量很大时),通常使用对数似然函数,它将乘积转换为求和:

ℓ ( θ ∣ D ) = log ⁡ L ( θ ∣ D ) = ∑ i = 1 n log ⁡ f ( x i ∣ θ ) \ell(\theta | D) = \log L(\theta | D) = \sum_{i=1}^{n} \log f(x_i | \theta) ℓ(θ∣D)=logL(θ∣D)=∑i=1nlogf(xi∣θ)

对数似然函数更容易处理,并且在数学上更稳定

5. 后验分布

后验分布是在考虑了数据(证据)之后对参数的更新概率分布。它是通过贝叶斯定理结合先验分布和似然函数得到的。

在贝叶斯统计中,后验分布 P ( θ ∣ D ) P(\theta | D) P(θ∣D) 是通过贝叶斯定理结合先验分布 P ( θ ) P(\theta) P(θ) 和似然函数 P ( D ∣ θ ) P(D | \theta) P(D∣θ) 得到的:

P ( θ ∣ D ) = P ( D ∣ θ ) ⋅ P ( θ ) P ( D ) P(\theta | D) = \frac{P(D | \theta) \cdot P(\theta)}{P(D)} P(θ∣D)=P(D)P(D∣θ)⋅P(θ)

这里:

  • P ( D ∣ θ ) P(D | \theta) P(D∣θ) 是似然函数。
  • P ( θ ) P(\theta) P(θ) 是先验分布。
  • P ( D ) P(D) P(D) 是证据或边际似然,它是归一化常数,确保后验分布的积分为1。

似然函数的形式

似然函数的形式取决于数据的性质和模型的假设。例如:

  • 对于正态分布数据,似然函数是正态分布的概率密度函数。
  • 对于二项分布数据,似然函数是二项分布的概率质量函数。
正态分布数据的似然函数

对于正态分布数据,如果我们有一个样本 D = { x 1 , x 2 , ... , x n } D = \{x_1, x_2, \ldots, x_n\} D={x1,x2,...,xn},其中每个 x i x_i xi 是独立同分布(i.i.d.)的正态随机变量,其均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2,那么似然函数 L ( μ , σ 2 ∣ D ) L(\mu, \sigma^2 | D) L(μ,σ2∣D) 是各个数据点概率密度函数(PDF)的乘积:

L ( μ , σ 2 ∣ D ) = ∏ i = 1 n 1 2 π σ 2 exp ⁡ ( − ( x i − μ ) 2 2 σ 2 ) L(\mu, \sigma^2 | D) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x_i - \mu)^2}{2\sigma^2}\right) L(μ,σ2∣D)=∏i=1n2πσ2 1exp(−2σ2(xi−μ)2)

这个乘积可以简化为:

L ( μ , σ 2 ∣ D ) = ( 1 2 π σ 2 ) n exp ⁡ ( − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 ) L(\mu, \sigma^2 | D) = \left(\frac{1}{\sqrt{2\pi\sigma^2}}\right)^n \exp\left(-\frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i - \mu)^2\right) L(μ,σ2∣D)=(2πσ2 1)nexp(−2σ21∑i=1n(xi−μ)2)

在实际应用中,我们通常使用对数似然函数来避免数值计算中的下溢问题,并且对数变换将乘积转换为求和,更容易处理:

ℓ ( μ , σ 2 ∣ D ) = log ⁡ L ( μ , σ 2 ∣ D ) = − n 2 log ⁡ ( 2 π ) − n log ⁡ ( σ ) − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 \ell(\mu, \sigma^2 | D) = \log L(\mu, \sigma^2 | D) = -\frac{n}{2} \log(2\pi) - n \log(\sigma) - \frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i - \mu)^2 ℓ(μ,σ2∣D)=logL(μ,σ2∣D)=−2nlog(2π)−nlog(σ)−2σ21∑i=1n(xi−μ)2

二项分布数据的似然函数

对于二项分布数据,如果我们有 n n n 次独立的伯努利试验,每次试验成功的概率为 θ \theta θ,并且我们观测到 k k k 次成功,那么似然函数 L ( θ ∣ D ) L(\theta | D) L(θ∣D) 是二项分布的概率质量函数(PMF):

L ( θ ∣ D ) = ( n k ) θ k ( 1 − θ ) n − k L(\theta | D) = \binom{n}{k} \theta^k (1-\theta)^{n-k} L(θ∣D)=(kn)θk(1−θ)n−k

这里:

  • ( n k ) \binom{n}{k} (kn) 是二项式系数,表示从 n n n 次试验中选择 k k k 次成功的方式数。
  • θ k \theta^k θk 是 k k k 次成功的概率。
  • ( 1 − θ ) n − k (1-\theta)^{n-k} (1−θ)n−k 是 n − k n-k n−k 次失败的概率。

二项分布的对数似然函数是:

ℓ ( θ ∣ D ) = log ⁡ L ( θ ∣ D ) = log ⁡ ( n k ) + k log ⁡ θ + ( n − k ) log ⁡ ( 1 − θ ) \ell(\theta | D) = \log L(\theta | D) = \log \binom{n}{k} + k \log \theta + (n-k) \log (1-\theta) ℓ(θ∣D)=logL(θ∣D)=log(kn)+klogθ+(n−k)log(1−θ)

在贝叶斯框架中,我们可以使用这些似然函数与先验分布结合,通过贝叶斯定理更新后验分布。对于正态分布数据,后验分布将取决于 μ \mu μ 和 σ 2 \sigma^2 σ2 的先验分布;对于二项分布数据,后验分布将取决于 θ \theta θ 的先验分布。这些后验分布允许我们对参数进行推断,并量化参数的不确定性。

6. 边缘似然(模型选择)

边缘似然是给定模型下数据的总概率。它可以通过对所有可能的参数值进行积分来计算。边缘似然在模型选择中非常重要,因为它允许我们比较不同模型对数据的拟合程度。

它表示在给定模型下观测到数据的总概率。边缘似然的计算涉及对所有可能的参数值进行积分(对于连续参数)或求和(对于离散参数),这通常由模型的先验分布加权。

边缘似然的计算

对于连续参数,边缘似然 P ( D ) P(D) P(D) 由下式给出:

P ( D ) = ∫ P ( D ∣ θ ) P ( θ )   d θ P(D) = \int P(D | \theta) P(\theta) \, d\theta P(D)=∫P(D∣θ)P(θ)dθ

其中:

  • P ( D ∣ θ ) P(D | \theta) P(D∣θ) 是似然函数,表示在给定参数 θ \theta θ 下观测到数据 D D D 的概率。
  • P ( θ ) P(\theta) P(θ) 是参数 θ \theta θ 的先验分布。
  • 积分是对所有可能的 θ \theta θ 值进行的。

对于离散参数,边缘似然是:

P ( D ) = ∑ P ( D ∣ θ ) P ( θ ) P(D) = \sum P(D | \theta) P(\theta) P(D)=∑P(D∣θ)P(θ)

其中求和是对所有可能的 θ \theta θ 值进行的。

边缘似然在模型选择中的作用

边缘似然用于比较不同的模型对同一数据集的拟合程度。在模型选择中,我们通常比较两个或多个模型的边缘似然值。模型的边缘似然值越高,表示该模型对数据的拟合越好。

比较模型

比较两个模型 M 1 M_1 M1 和 M 2 M_2 M2 的边缘似然时,我们计算模型的相对证据,即贝叶斯因子:

贝叶斯因子 = P ( D ∣ M 1 ) P ( D ∣ M 2 ) \text{贝叶斯因子} = \frac{P(D | M_1)}{P(D | M_2)} 贝叶斯因子=P(D∣M2)P(D∣M1)

如果贝叶斯因子大于1,它表明模型 M 1 M_1 M1 比模型 M 2 M_2 M2 更可能;如果小于1,则表明模型 M 2 M_2 M2 更可能。

7. 共轭先验

共轭先验是指先验分布和后验分布属于同一家族的分布。这意味着后验分布的形式与先验分布相同,只是参数不同。例如,对于二项分布的似然函数,共轭先验是贝塔分布。

8. 贝叶斯推断的步骤

  1. 定义模型:选择一个概率模型来描述数据的生成过程。
  2. 指定先验:为模型参数选择一个先验分布。
  3. 计算似然:根据模型计算给定参数下数据的似然性。
  4. 更新后验:使用贝叶斯定理结合先验和似然来更新后验分布。
  5. 做出决策:基于后验分布进行预测或决策。

9. 贝叶斯推断的挑战

  • 计算复杂性:后验分布可能难以直接计算,特别是当模型复杂或数据量大时。
  • 先验选择:先验的选择可能会影响后验分布,特别是在数据较少时。

10. 贝叶斯推断的工具

马尔可夫链蒙特卡洛(MCMC)

一种通过模拟随机样本来近似后验分布的方法。

马尔可夫链蒙特卡洛(Markov Chain Monte Carlo,简称MCMC)方法是一类强大的算法,它们用于从复杂的概率分布中生成随机样本,尤其是当这些分布难以直接抽样时。它们可以用来近似后验分布,即使这些分布的解析形式未知或难以计算。

即:一种通过模拟随机样本来近似后验分布的方法。

MCMC的工作原理

MCMC方法通过构建一个马尔可夫链来工作,这个马尔可夫链是一个随机过程,其下一个状态的概率分布仅依赖于当前状态。通过设计这个链,使其在长期运行后,其状态的分布收敛到我们想要抽样的目标分布(例如后验分布)。

MCMC的关键步骤
  1. 初始化

    • 选择一个初始状态 x 0 x_0 x0。
  2. 迭代过程

    • 从当前状态 x t x_t xt 开始,提出一个新状态 x ′ x' x′,这个提议可以通过各种方法生成,例如随机游走或更复杂的方法。
    • 计算接受概率 α \alpha α,这是新状态被接受的概率,由下式给出:
      α = min ⁡ ( 1 , P ( x ′ ) Q ( x ∣ x ′ ) P ( x ) Q ( x ′ ∣ x ) ) \alpha = \min\left(1, \frac{P(x')Q(x|x')}{P(x)Q(x'|x)}\right) α=min(1,P(x)Q(x′∣x)P(x′)Q(x∣x′))
      其中 P P P 是目标分布, Q Q Q 是提议分布。
  3. 接受或拒绝

    • 生成一个均匀随机数 u u u 在区间 ([0, 1])。
    • 如果 u ≤ α u \leq \alpha u≤α,则接受新状态 x ′ x' x′,即设置 x t + 1 = x ′ x_{t+1} = x' xt+1=x′。
    • 如果 u > α u > \alpha u>α,则拒绝新状态,保持当前状态不变,即设置 x t + 1 = x t x_{t+1} = x_t xt+1=xt。
  4. 重复

    • 重复步骤2和3多次,以生成足够多的样本。
  5. 收敛和混合

    • 随着时间的推移,马尔可夫链的状态将收敛到目标分布,前提是链是不可约的和非周期的,并且满足详细的平衡条件。

变分推断

一种通过优化一个简单分布来近似后验分布的方法。

11.焦糖板栗(例子)

假设我们有一个装满球的袋子,其中30%是红球,70%是蓝球。我们随机抽取一个球,发现它是红色的。我们想计算这个袋子最初是装红球的袋子的概率,假设我们有两种类型的袋子:一种装有30%的红球和70%的蓝球,另一种装有80%的红球和20%的蓝球。

让我们定义:

  • A 1 A_1 A1:袋子是第一种类型(30%红球,70%蓝球)。
  • A 2 A_2 A2:袋子是第二种类型(80%红球,20%蓝球)。
  • B B B:我们抽取了一个红球。

我们需要找到 P ( A 1 ∣ B ) P(A_1|B) P(A1∣B) 和 P ( A 2 ∣ B ) P(A_2|B) P(A2∣B)。

使用贝叶斯定理:

P ( A 1 ∣ B ) = P ( B ∣ A 1 ) ⋅ P ( A 1 ) P ( B ) P(A_1|B) = \frac{P(B|A_1) \cdot P(A_1)}{P(B)} P(A1∣B)=P(B)P(B∣A1)⋅P(A1)
P ( A 2 ∣ B ) = P ( B ∣ A 2 ) ⋅ P ( A 2 ) P ( B ) P(A_2|B) = \frac{P(B|A_2) \cdot P(A_2)}{P(B)} P(A2∣B)=P(B)P(B∣A2)⋅P(A2)

其中:

  • P ( A 1 ) = P ( A 2 ) = 0.5 P(A_1) = P(A_2) = 0.5 P(A1)=P(A2)=0.5(因为我们假设两种袋子的可能性相等)。
  • P ( B ∣ A 1 ) = 0.3 P(B|A_1) = 0.3 P(B∣A1)=0.3(第一种袋子中抽到红球的概率)。
  • P ( B ∣ A 2 ) = 0.8 P(B|A_2) = 0.8 P(B∣A2)=0.8(第二种袋子中抽到红球的概率)。

为了找到 P ( B ) P(B) P(B),我们使用全概率公式:

P ( B ) = P ( B ∣ A 1 ) ⋅ P ( A 1 ) + P ( B ∣ A 2 ) ⋅ P ( A 2 ) P(B) = P(B|A_1) \cdot P(A_1) + P(B|A_2) \cdot P(A_2) P(B)=P(B∣A1)⋅P(A1)+P(B∣A2)⋅P(A2)
P ( B ) = 0.3 ⋅ 0.5 + 0.8 ⋅ 0.5 = 0.55 P(B) = 0.3 \cdot 0.5 + 0.8 \cdot 0.5 = 0.55 P(B)=0.3⋅0.5+0.8⋅0.5=0.55

现在我们可以计算后验概率:

P ( A 1 ∣ B ) = 0.3 ⋅ 0.5 0.55 = 0.15 0.55 ≈ 0.2727 P(A_1|B) = \frac{0.3 \cdot 0.5}{0.55} = \frac{0.15}{0.55} \approx 0.2727 P(A1∣B)=0.550.3⋅0.5=0.550.15≈0.2727
P ( A 2 ∣ B ) = 0.8 ⋅ 0.5 0.55 = 0.4 0.55 ≈ 0.7273 P(A_2|B) = \frac{0.8 \cdot 0.5}{0.55} = \frac{0.4}{0.55} \approx 0.7273 P(A2∣B)=0.550.8⋅0.5=0.550.4≈0.7273

所以,如果我们抽取了一个红球,这个袋子是第二种类型(80%红球,20%蓝球)的概率大约是72.73%。

相关推荐
无水先生4 天前
ML 系列赛: 第 22 节 — 离散概率分布 (Multinoulli Distribution)
概率论
无水先生4 天前
ML 系列:第 21 节 — 离散概率分布(二项分布)
概率论
pzx_0014 天前
【独立同分布】
人工智能·机器学习·概率论
TiAmo·penny5 天前
测度论原创(三)
概率论
phoenix@Capricornus5 天前
中心极限定理的三种形式
机器学习·概率论
庆庆知识库5 天前
信号与噪声分析——第二节:随机变量的统计特征
概率论
Researcher-Du6 天前
随机采样之接受拒绝采样
概率论
无水先生7 天前
ML 系列:机器学习和深度学习的深层次总结( 19)— PMF、PDF、平均值、方差、标准差
概率论
无水先生7 天前
ML 系列:机器学习和深度学习的深层次总结( 20)— 离散概率分布 (Bernoulli 分布)
概率论