对概率的诠释有两大学派,一种是频率派另一种是贝叶斯派。后面我们对观测集采用下面记号:
XN×P=(x1,x2,x3,⋅⋅⋅,xN)T,xi=(xi1,xi2,xi3,⋅⋅⋅,xip)T X_{N \times P}= (x_1,x_2,x_3,\cdot \cdot \cdot,x_N)^T, x_i =(x_{i1},x_{i2},x_{i3}, \cdot \cdot \cdot,x_{ip})^T XN×P=(x1,x2,x3,⋅⋅⋅,xN)T,xi=(xi1,xi2,xi3,⋅⋅⋅,xip)T
这个记号表示有 NNN个样本,每个样本都是 ppp维向量。其中每个观测都是由p(x∣θ)p(x|\theta)p(x∣θ) 生成的。
贝叶斯派
贝叶斯派认为p(x∣θ)p(x|θ)p(x∣θ)中θθθ不是一个常量。这个θθθ满足一个预设的先验的分布 θ∼p(θ)θ\sim p(θ)θ∼p(θ)。于是根据贝叶斯定理依赖观测集参数的后验可以写成:
p(θ∣X)=p(X∣θ)⋅p(θ)p(x)=p(X∣θ)⋅p(θ)∫θp(X∣θ)⋅p(θ)dθ p(θ|X)= \frac{ p(X|θ) \cdot p(θ)}{p(x)} = \frac{p(X|θ) \cdot p(θ)}{\int\limits_θp(X|θ) \cdot p(θ) dθ} p(θ∣X)=p(x)p(X∣θ)⋅p(θ)=θ∫p(X∣θ)⋅p(θ)dθp(X∣θ)⋅p(θ)
这里的解释:
参数θ\thetaθ 视为随机变量,他有自己的先验分布p(θ)p(\theta)p(θ)。当我们要计算观测数据 XXX 出现的 "绝对概率 p(X) 时,需要考虑参数 θ\thetaθ 所有可能取值对 p(X)p(X)p(X) 的贡献 。根据全概率公式,对于连续型随机变量θ\thetaθ ,观测数据XXX的边缘概率(也叫证据)p(X)p(X)p(X) ,需要对在给定的θ\thetaθ 条件下XXX 发生的概率p(X∣θ)p(X|\theta)p(X∣θ) ,乘以θ\thetaθ 自身的先验概率密度p(θ)p(\theta)p(θ),然后对θ\thetaθ所有的可能取值范围进行积分即:
p(X∣θ)⋅p(θ)∫θp(X∣θ)⋅p(θ)dθ \frac{p(X|θ) \cdot p(θ)}{\int\limits_θp(X|θ) \cdot p(θ) dθ} θ∫p(X∣θ)⋅p(θ)dθp(X∣θ)⋅p(θ)
为了求 θ\thetaθ的值,我们要最大化这个参数后验MAP:
θMAP=argmaxθ p(θ∣X)=argmaxθ p(X∣θ)⋅p(θ) \theta_{MAP} = \underset{\theta}{\arg\max} \space p(\theta \mid X) = \underset{\theta}{\arg\max} \space p(X \mid \theta) \cdot p(\theta) θMAP=θargmax p(θ∣X)=θargmax p(X∣θ)⋅p(θ)
其中第二个等号由于和θ\thetaθ 没有关系。求解这个θ\thetaθ值后计算
p(X∣θ)⋅p(θ)∫θp(X∣θ)⋅p(θ)dθ \frac{p(X|θ) \cdot p(θ)}{\int\limits_θp(X|θ) \cdot p(θ) dθ} θ∫p(X∣θ)⋅p(θ)dθp(X∣θ)⋅p(θ)
,就得到了参数的后验概率。其中p(X∣θp(X|\thetap(X∣θ 叫似然,是我们的模型分布。得到了参数的后验分布后,我们可以将这个分布用于预测贝叶斯预测:
p(xnew∣X)=∫θ p(xnew∣θ)⋅p(θ∣X))dθ p(x_{new}|X) = \int\limits_{\theta} \space p(x_{new} | \theta) \cdot p(\theta| X))d\theta p(xnew∣X)=θ∫ p(xnew∣θ)⋅p(θ∣X))dθ
其中积分中的被乘数是模型,乘数是后验分布。
频率派
p(x∣θ)p(x|\theta)p(x∣θ) 中的θ\thetaθ是一个常量。对于NNN个观测集来说观测集的概率为p(X∣θ)=iid∏i=1Np(xi∣θ)p(X \mid \theta) \stackrel{iid}{=} \prod_{i=1}^{N} p(x_i \mid \theta)p(X∣θ)=iid∏i=1Np(xi∣θ)。为了求θ\thetaθ的大小,我们采用最大似然MLE的方法:
θMLE=argmaxθlogp(X∣θ)=iidargmaxθ∑i=1Nlogp(xi∣θ) \theta_{MLE} = \underset{\theta}{\text{argmax}} \log p(X \mid \theta) \stackrel{iid}{=} \underset{\theta}{\text{argmax}} \sum_{i=1}^{N} \log p(x_i \mid \theta) θMLE=θargmaxlogp(X∣θ)=iidθargmaxi=1∑Nlogp(xi∣θ)
总结
频率派和贝叶斯派分别给出了一系列的机器学习算法。频率派的观点导出了一系列的统计机器学习算法而贝叶斯派导出了概率图理论。在应用频率派的 MLE 方法时最优化理论占有重要地位。而贝叶斯派的算法无论是后验概率的建模还是应用这个后验进行推断时积分占有重要地位。因此采样积分方法如 MCMC 有很多应用。
全概率公式与贝叶斯公式
全概率公式(Law of Total Probability)
**核心思想:**将复杂事件的概率分解为多个简单互斥事件的概率之和。
**适用条件:**事件组 A1,A2,A3⋅⋅⋅AnA_1,A_2,A_3 \cdot \cdot \cdot A_nA1,A2,A3⋅⋅⋅An 需满足:
-
互斥性:任意两个事件不同时发生(Ai∩Aj=∅A_i \cap A_j = \emptysetAi∩Aj=∅)
-
穷尽性:所有事件的并集构成样本空间(A1∪A2∪A3⋅⋅⋅An=ΩA_1 \cup A_2 \cup A_3 \cdot \cdot \cdot A_n = \OmegaA1∪A2∪A3⋅⋅⋅An=Ω)
公式:
P(B)=∑i=1nP(B∣Ai)P(Ai) P(B) = \sum_{i=1}^n P(B \mid A_i) P(A_i) P(B)=i=1∑nP(B∣Ai)P(Ai)
假设某工厂有3条生产线(A1,A2,A3A_1,A_2,A_3A1,A2,A3),产量占比分别为50%、30%、20%,次品率分别为1%、2%、3%。求随机抽取一件产品是次品(事件B)的概率。
- P(A1)=0.5,P(B∣A1)=0.01P(A_1)=0.5,P(B|A_1)=0.01P(A1)=0.5,P(B∣A1)=0.01
- P(A2)=0.3,P(B∣A2)=0.02P(A_2)=0.3,P(B|A_2)=0.02P(A2)=0.3,P(B∣A2)=0.02
- P(A3)=0.5,P(B∣A3)=0.03P(A_3)=0.5,P(B|A_3)=0.03P(A3)=0.5,P(B∣A3)=0.03
P(B)=0.5×0.01+0.3×0.02+0.5×0.03=0.017P(B)=0.5 \times 0.01 + 0.3 \times 0.02 + 0.5 \times 0.03 = 0.017P(B)=0.5×0.01+0.3×0.02+0.5×0.03=0.017
连续形式的全概率公式:
P(B)=∫−∞+∞P(B∣X=x)⋅fX(x) dx P(B) = \int_{-\infty}^{+\infty} P(B \mid X = x) \cdot f_X(x) \, dx P(B)=∫−∞+∞P(B∣X=x)⋅fX(x)dx
贝叶斯公式
核心思想:基于已知结果(事件B发生),反向推断某个原因(事件AiA_iAi)的概率。
P(Ai∣B)=P(B∣Ai)⋅P(Ai)P(B)=P(B∣Ai)⋅P(Ai)∑j=1nP(B∣Aj)⋅P(Aj)(离散)=P(B∣Ai)⋅P(Ai)∫−∞+∞P(B∣X=x)⋅fX(x) dx(连续) P(A_i \mid B) =\frac{P(B \mid A_i) \cdot P(A_i)}{P(B)} = \frac{P(B \mid A_i) \cdot P(A_i)}{\sum_{j=1}^n P(B \mid A_j) \cdot P(A_j)}(离散)=\frac{P(B \mid A_i) \cdot P(A_i)}{\int_{-\infty}^{+\infty} P(B \mid X = x) \cdot f_X(x) \, dx}(连续) P(Ai∣B)=P(B)P(B∣Ai)⋅P(Ai)=∑j=1nP(B∣Aj)⋅P(Aj)P(B∣Ai)⋅P(Ai)(离散)=∫−∞+∞P(B∣X=x)⋅fX(x)dxP(B∣Ai)⋅P(Ai)(连续)
**例子:**接上例接上例,若抽到一件次品,求它来自第2条生产线(A2A_2A2)的概率。
计算:
P(A2∣B)=0.3×0.020.017≈0.3529(即35.29) P(A_2 | B) = \frac{0.3 \times 0.02}{0.017} \approx 0.3529 \quad (\text即35.29)% P(A2∣B)=0.0170.3×0.02≈0.3529(即35.29)