【深度学习数学知识】-贝叶斯公式

条件概率公式（定义）

P ( A ∣ B ) = P ( A , B ) P ( B ) P(A|B)=\frac{P(A,B)}{P(B)} P(A∣B)=P(B)P(A,B)

条件概率公式是定义，无法进行公式推导

条件概率 P ( A ∣ B ) P(A|B) P(A∣B)指在事件 B B B发生的条件下，事件 A A A发生的概率

联合概率 P ( A , B ) P(A,B) P(A,B)指事件A、事件B同时发生的概率

全概率公式（定理）

P ( A ) = ∑ i P ( A ∣ B i ) P ( B i ) P(A)=\sum_{i}{P(A|B_i)P(B_i)} P(A)=∑iP(A∣Bi)P(Bi)

推导过程

样本空间的划分 ：假设 B 1 , B 2 , B 3 , . . . , B n B_1,B_2,B_3,...,B_n B1,B2,B3,...,Bn是样本空间 S S S的一个划分，即它们互斥（ P ( B i , B j ) = 0 P(B_i,B_j)=0 P(Bi,Bj)=0对于所有 i ≠ j i\neq j i=j）且它们的并集是整个样本空间（ ∑ i = 1 n P ( B i ) = 1 \sum_{i=1}^nP(B_i)=1 ∑i=1nP(Bi)=1）
事件 A A A的表示 ：由于 B 1 , B 2 , B 3 , . . . , B n B_1,B_2,B_3,...,B_n B1,B2,B3,...,Bn是样本空间 S S S的划分，事件 A A A可以表示为 A A A与每个 B i B_i Bi的交集的并集，即： P ( A ) = ∑ i = 1 n P ( A , B i ) P(A)=\sum_{i=1}^nP(A,B_i) P(A)=∑i=1nP(A,Bi)
条件概率的定义 ：根据条件概率的定义， P ( A , B ) = P ( A ∣ B ) P ( B ) P(A,B)=P(A|B){P(B)} P(A,B)=P(A∣B)P(B)， P ( A ) = ∑ i = 1 n P ( A , B i ) = ∑ i = 1 n P ( A ∣ B i ) P ( B i ) P(A)=\sum_{i=1}^nP(A,B_i)=\sum_{i=1}^nP(A|B_i)P(B_i) P(A)=∑i=1nP(A,Bi)=∑i=1nP(A∣Bi)P(Bi)

贝叶斯公式（定理）

含义

我们需要在证据 B B B出现的条件下，计算假设 A A A 成立的概率

公式： P ( A ∣ B ) = P ( B ∣ A ) P ( B ) P ( A ) P(A|B)=\frac{P(B|A)}{P(B)}P(A) P(A∣B)=P(B)P(B∣A)P(A)

名词定义：

P ( A ∣ B ) P(A|B) P(A∣B)，表示后验概率，即目标概率，指的是在证据B出现之后，得到的概率
P ( A ) P(A) P(A)，表示先验概率，指的是在证据 B B B出现之前，预先得到的概率
P ( B ∣ A ) P ( B ) \frac{P(B|A)}{P(B)} P(B)P(B∣A)，表示可能性函数
- P ( B ∣ A ) P(B|A) P(B∣A)，表示似然概率，是在假设 A A A成立的条件下证据 B B B出现的概率，即似然概率。
- P ( B ) P(B) P(B)，表示边缘概率，是证据 B B B出现的概率。
- 因此， P ( B ∣ A ) P ( B ) \frac{P(B|A)}{P(B)} P(B)P(B∣A)可以被看作是一个标准化的似然概率。如果该值大于1，说明边缘概率 B B B的引入，增大 A A A的发生概率 P ( B ∣ A ) P ( B ) P ( A ) > P ( A ) \frac{P(B|A)}{P(B)}P(A)>P(A) P(B)P(B∣A)P(A)>P(A)；反之，减少 A A A的发生概率 P ( B ∣ A ) P ( B ) P ( A ) < P ( A ) \frac{P(B|A)}{P(B)}P(A)<P(A) P(B)P(B∣A)P(A)<P(A)。

推导过程

根据条件概率公式，有
P ( A ∣ B ) = P ( A , B ) P ( B ) P(A|B)=\frac{P(A,B)}{P(B)} P(A∣B)=P(B)P(A,B)
P ( B ∣ A ) = P ( A , B ) P ( A ) P(B|A)=\frac{P(A,B)}{P(A)} P(B∣A)=P(A)P(A,B)
按照上述等式，有
P ( A , B ) = P ( A ∣ B ) P ( B ) = P ( B ∣ A ) P ( A ) P(A,B)=P(A|B)P(B)=P(B|A)P(A) P(A,B)=P(A∣B)P(B)=P(B∣A)P(A)
进一步推导，有
P ( A ∣ B ) = P ( B ∣ A ) P ( B ) P ( A ) P(A|B)=\frac{P(B|A)}{P(B)}P(A) P(A∣B)=P(B)P(B∣A)P(A)
根据全概率公式，将 P ( B ) = ∑ i P ( B ∣ A i ) P ( A i ) P(B)=\sum_i{P(B|A_i)P(A_i)} P(B)=∑iP(B∣Ai)P(Ai)带入，贝叶斯公式有一种新的形式
P ( A ∣ B ) = P ( B ∣ A ) P ( B ) P ( A ) = P ( B ∣ A ) ∑ i P ( B ∣ A i ) P ( A i ) P ( A ) P(A|B)=\frac{P(B|A)}{P(B)}P(A)=\frac{P(B|A)}{\sum_i{P(B|A_i)P(A_i)}}P(A) P(A∣B)=P(B)P(B∣A)P(A)=∑iP(B∣Ai)P(Ai)P(B∣A)P(A)

贝叶斯公式应用案例

假设M国有10000人，有100个罪犯，9900个正常人。罪犯零元购的概率是90%，正常人零元购的概率是5%。现在发生一起零元购事件，请问是正常人零元购的概率是多少？

首先有两个事件，分别是罪犯或正常人事件A，以及零元购事件B
求解目标： P ( A = 正常人 ∣ B ) P(A=正常人|B) P(A=正常人∣B)，代入贝叶斯公式，有 P ( A = 正常人 ∣ B ) = P ( B ∣ A = 正常人 ) P ( B ∣ A = 正常人 ) P ( A = 正常人 ) + P ( B ∣ A = 罪犯 ) P ( A = 罪犯 ) P ( A = 正常人 ) P(A=正常人|B)=\frac{P(B|A=正常人)}{P(B|A=正常人)P(A=正常人)+P(B|A=罪犯)P(A=罪犯)}P(A=正常人) P(A=正常人∣B)=P(B∣A=正常人)P(A=正常人)+P(B∣A=罪犯)P(A=罪犯)P(B∣A=正常人)P(A=正常人)
已知：
- 正常人零元购概率是5%，等价于 P ( B ∣ A = 正常人 ) = 0.05 P(B|A=正常人)=0.05 P(B∣A=正常人)=0.05
- 罪犯零元购概率是80%，等价于 P ( B ∣ A = 罪犯 ) = 0.9 P(B|A=罪犯)=0.9 P(B∣A=罪犯)=0.9
- M国有10000人，有100个罪犯，9900个正常人，等价于 P ( A = 罪犯 ) = 100 10000 = 0.01 P(A=罪犯)=\frac{100}{10000}=0.01 P(A=罪犯)=10000100=0.01， P ( A = 正常人 ) = 9900 10000 = 0.99 P(A=正常人)=\frac{9900}{10000}=0.99 P(A=正常人)=100009900=0.99
求解贝叶斯公式： P ( A = 正常人 ∣ B ) = P ( B ∣ A = 正常人 ) P ( B ∣ A = 正常人 ) P ( A = 正常人 ) + P ( B ∣ A = 罪犯 ) P ( A = 罪犯 ) P ( A = 正常人 ) = 0.05 0.05 ∗ 0.99 + 0.9 ∗ 0.01 ∗ 0.99 = 0.8461 \begin{equation}\begin{aligned} P(A=正常人|B) &= \frac{P(B|A=正常人)}{P(B|A=正常人)P(A=正常人)+P(B|A=罪犯)P(A=罪犯)}P(A=正常人) \\ &=\frac{0.05}{0.05*0.99+0.9*0.01}*0.99=0.8461 \end{aligned} \end{equation} P(A=正常人∣B)=P(B∣A=正常人)P(A=正常人)+P(B∣A=罪犯)P(A=罪犯)P(B∣A=正常人)P(A=正常人)=0.05∗0.99+0.9∗0.010.05∗0.99=0.8461 从计算的结果来看，尽管正常人零元购可能性较低，但正常人占比多，所以正常人零元购的概率还是很大的。