图解统计学 | 贝叶斯公式与全概率公式

过年了,作为水果店老板的我们,一共进了三种水果,其中:

西瓜:50个

香蕉:30个

橙子:20个

为了方便顾客挑选,放在如下的格子里,每个格子放一个水果,总共 100 个

概率

现在有一人前来买水果,那么可以算出他买某种水果的概率:

西瓜: <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( A 1 ) = 50 / 100 = 0.5 P(A_1) = 50/100 = 0.5 </math>P(A1)=50/100=0.5

香蕉: <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( A 2 ) = 30 / 100 = 0.3 P(A_2) = 30/100 = 0.3 </math>P(A2)=30/100=0.3

橙子: <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( A 3 ) = 20 / 100 = 0.2 P(A_3) = 20/100 = 0.2 </math>P(A3)=20/100=0.2

我们统计下买某种水果的概率,并记录为表1

联合概率

水果质量乘次不齐,会有少量的坏果,顾客一般从外观难以分辨。

但是作为经验老道的老板,大概知道有几个坏果,用较深的颜色统计每种水果中的坏果,从图中可以看到:

西瓜里有 10 个坏果

香蕉里有 3 个坏果

橙子里有 4 个坏果

那么顾客既选西瓜又选到坏果的概率是

西瓜: <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( A 1 , B ) = 10 / 100 = 0.1 P(A_1,B) = 10/100 = 0.1 </math>P(A1,B)=10/100=0.1

这里,顾客既选西瓜A_1又选到坏果B的概率用P(x_1,y)表示,逗号用来表示两件事同时发生。

其他的类似:

香蕉: <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( A 2 , B ) = 3 / 100 = 0.03 P(A_2,B) = 3/100 = 0.03 </math>P(A2,B)=3/100=0.03

橙子: <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( A 3 , B ) = 4 / 100 = 0.04 P(A_3,B) = 4/100 = 0.04 </math>P(A3,B)=4/100=0.04

我们统计下顾客挑选某种水果且有坏果的概率表,记录为表2

条件概率

与之前不同,顾客现在就想买颗西瓜,他选到坏果的概率是多少?

西瓜: <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( B ∣ A 1 ) = 10 / 50 = 0.2 P(B|A_1) = 10/50 = 0.2 </math>P(B∣A1)=10/50=0.2

这里,顾客从西瓜里选到坏果的概率用 <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( B ∣ A 1 ) P(B|A_1) </math>P(B∣A1) 表示,

其中 |表示在 A_1发生的前提下又发生B的概率。

其他水果:

香蕉: <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( B ∣ A 2 ) = 3 / 30 = 0.1 P(B|A_2) = 3/30 = 0.1 </math>P(B∣A2)=3/30=0.1

橙子: <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( B ∣ A 3 ) = 4 / 20 = 0.2 P(B|A_3) = 4/20 = 0.2 </math>P(B∣A3)=4/20=0.2

我们统计下顾客从某种水果挑选到坏果的概率表,记录为表3

现在我们把以上三张表整理成一张表

我们会惊奇的发现一个规律:

西瓜: <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( A 1 , B ) = P ( A 1 ) P ( B ∣ A 1 ) = 0.5 × 0.2 = 0.1 P(A_1,B)=P(A_1)P(B|A_1)=0.5 \times 0.2 = 0.1 </math>P(A1,B)=P(A1)P(B∣A1)=0.5×0.2=0.1

香蕉: <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( A 2 , B ) = P ( A 2 ) P ( B ∣ A 2 ) = 0.3 × 0.1 = 0.03 P(A_2,B)=P(A_2)P(B|A_2)=0.3 \times 0.1 = 0.03 </math>P(A2,B)=P(A2)P(B∣A2)=0.3×0.1=0.03

橙子: <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( A 3 , B ) = P ( A 3 ) P ( B ∣ A 3 ) = 0.2 × 0.5 = 0.04 P(A_3,B)=P(A_3)P(B|A_3)=0.2 \times 0.5 = 0.04 </math>P(A3,B)=P(A3)P(B∣A3)=0.2×0.5=0.04

恭喜你,已经发现了联合概率公式

<math xmlns="http://www.w3.org/1998/Math/MathML"> P ( A i , B ) = P ( A i ) P ( B ∣ A i ) P(A_i,B)=P(A_i)P(B|A_i) </math>P(Ai,B)=P(Ai)P(B∣Ai)

利用幼儿园的乘除法,可以转化为:

<math xmlns="http://www.w3.org/1998/Math/MathML"> P ( B ∣ A i ) = P ( A i , B ) P ( A i ) P(B|A_i)=\frac{P(A_i,B)}{P(A_i)} </math>P(B∣Ai)=P(Ai)P(Ai,B)

这就是所谓的条件概率公式。

条件概率也可以用集合图表示,其实就是用 <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( A i , B ) P(A_i,B) </math>P(Ai,B) 联合概率(交集) 除以 <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( A i ) P(A_i) </math>P(Ai)

全概率公式

现在统计下顾客选到坏果的概率为:

<math xmlns="http://www.w3.org/1998/Math/MathML"> P ( B ) = ( 10 + 3 + 4 ) / 100 = 0.17 P(B)=(10+3+4)/100=0.17 </math>P(B)=(10+3+4)/100=0.17

再拿过来刚刚的统计表

我们现在发现又一条规律:

<math xmlns="http://www.w3.org/1998/Math/MathML"> P ( B ) = P ( A 1 , B ) + P ( A 2 , B ) + P ( A 3 , B ) = 0.1 + 0.03 + 0.04 = 0.17 P(B)=P(A_1,B)+P(A_2,B)+P(A_3,B)=0.1+0.03+0.04=0.17 </math>P(B)=P(A1,B)+P(A2,B)+P(A3,B)=0.1+0.03+0.04=0.17

在现实生活中,我们并不能直接得到 <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( A i , B ) P(A_i,B) </math>P(Ai,B) 的值,或者获取难度太大。

一般只能获得某个事件发生的概率 <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( A i ) P(A_i) </math>P(Ai) 或在 A 事件发生后 B 事件发生的条件概率 <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( B ∣ A i ) P(B|A_i) </math>P(B∣Ai) ,

因此,代入刚刚推导出的联合概率公式,

也就是使用 <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( A i ) P ( B ∣ A i ) P(A_i)P(B|A_i) </math>P(Ai)P(B∣Ai) 来指代 <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( A i , B ) P(A_i,B) </math>P(Ai,B) ,得到:

<math xmlns="http://www.w3.org/1998/Math/MathML"> P ( B ) = P ( A 1 ) P ( B ∣ A 1 ) + P ( A 2 ) P ( B ∣ A 2 ) + P ( A 3 ) P ( B ∣ A 3 ) = 0.5 × 0.2 + 0.3 × 0.1 + 0.2 × 0.2 = 0.17 P(B)=P(A_1)P(B|A_1)+P(A_2)P(B|A_2)+P(A_3)P(B|A_3)\\=0.5\times0.2+0.3\times0.1+0.2\times0.2=0.17 </math>P(B)=P(A1)P(B∣A1)+P(A2)P(B∣A2)+P(A3)P(B∣A3)=0.5×0.2+0.3×0.1+0.2×0.2=0.17

以上就是所谓的全概率公式

我们一般见到的数学表示形式如下:

<math xmlns="http://www.w3.org/1998/Math/MathML"> P ( B ) = P ( A 1 ) P ( B ∣ A 1 ) + P ( A 2 ) P ( B ∣ A 2 ) + . . . + P ( A n ) P ( B ∣ A n ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(B) = P(A_1)P(B|A_1) + P(A_2)P(B|A_2)+...+P(A_n)P(B|A_n) = \sum_{i=1}^nP(A_i)P(B|A_i) </math>P(B)=P(A1)P(B∣A1)+P(A2)P(B∣A2)+...+P(An)P(B∣An)=∑i=1nP(Ai)P(B∣Ai)

贝叶斯公式

现在,坏果作为促销商品,那么顾客想从坏果中选到西瓜的概率是多少,也就是计算 <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( A 1 ∣ B ) P(A_1|B) </math>P(A1∣B)

**注意:**这里需要区分 <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( A 1 ∣ B ) P(A_1|B) </math>P(A1∣B) 和 <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( B ∣ A 1 ) P(B|A_1) </math>P(B∣A1) 二者的区别

<math xmlns="http://www.w3.org/1998/Math/MathML"> P ( B ∣ A 1 ) P(B|A_1) </math>P(B∣A1) 指的是选西瓜这件事已经确定的情况下,从中选坏果的概率,用图表示

<math xmlns="http://www.w3.org/1998/Math/MathML"> P ( A 1 ∣ B ) P(A_1|B) </math>P(A1∣B) 指的是在坏果已经确定的情况下,从中选西瓜的概率,用图表示

根据上图,很容易得到坏果总共有 17 个,其中 10 个西瓜:

<math xmlns="http://www.w3.org/1998/Math/MathML"> P ( A 1 ∣ B ) = 10 17 P(A_1|B)=\frac{10}{17} </math>P(A1∣B)=1710

用符号代替:

<math xmlns="http://www.w3.org/1998/Math/MathML"> P ( A 1 ∣ B ) = P ( A 1 , B ) P ( B ) = P ( A 1 ) P ( B ∣ A 1 ) P ( B ) P(A_1|B)=\frac{P(A_1,B)}{P(B)}=\frac{P(A_1)P(B|A_1)}{P(B)} </math>P(A1∣B)=P(B)P(A1,B)=P(B)P(A1)P(B∣A1)

根据联合概率公式:

关于为什么要使用联合概率公式转换,参考上一小节

<math xmlns="http://www.w3.org/1998/Math/MathML"> P ( A 1 ∣ B ) = P ( A , B ) P ( B ) = P ( A 1 ) P ( B ∣ A 1 ) P ( B ) P(A_1|B)=\frac{P(A,B)}{P(B)}=\frac{P(A_1)P(B|A_1)}{P(B)} </math>P(A1∣B)=P(B)P(A,B)=P(B)P(A1)P(B∣A1)

根据全概率公式:

<math xmlns="http://www.w3.org/1998/Math/MathML"> P ( A 1 ∣ B ) = P ( A 1 ) P ( B ∣ A 1 ) P ( B ) = P ( A 1 ) P ( B ∣ A 1 ) P ( A 1 ) P ( B ∣ A 1 ) + P ( A 2 ) P ( B ∣ A 2 ) + P ( A 3 ) P ( B ∣ A 3 ) P(A_1|B)=\frac{P(A_1)P(B|A_1)}{P(B)}=\frac{P(A_1)P(B|A_1)}{P(A_1)P(B|A_1)+P(A_2)P(B|A_2)+P(A_3)P(B|A_3)} </math>P(A1∣B)=P(B)P(A1)P(B∣A1)=P(A1)P(B∣A1)+P(A2)P(B∣A2)+P(A3)P(B∣A3)P(A1)P(B∣A1)

这个就是所谓的贝叶斯公式

代入值

<math xmlns="http://www.w3.org/1998/Math/MathML"> P ( A 1 ∣ B ) = 0.5 × 0.2 0.3 × 0.1 + 0.5 × 0.2 + 0.2 × 0.2 = 1 0.17 = 10 17 P(A_1|B)=\frac{0.5\times0.2}{0.3\times0.1+0.5\times0.2+0.2\times0.2} = \frac{1}{0.17} = \frac{10}{17} </math>P(A1∣B)=0.3×0.1+0.5×0.2+0.2×0.20.5×0.2=0.171=1710

相关推荐
一个处女座的程序猿1 小时前
LLMs之SLMs:《Small Language Models are the Future of Agentic AI》的翻译与解读
人工智能·自然语言处理·小语言模型·slms
档案宝档案管理4 小时前
档案宝:企业合同档案管理的“安全保险箱”与“效率加速器”
大数据·数据库·人工智能·安全·档案·档案管理
IT_Beijing_BIT5 小时前
TensorFlow Keras
人工智能·tensorflow·keras
mit6.8245 小时前
[手机AI开发sdk] 安卓上的Linux环境
人工智能·智能手机
张较瘦_5 小时前
[论文阅读] AI + 教育 | AI赋能“三个课堂”的破局之道——具身认知与技术路径深度解读
论文阅读·人工智能
小雨青年6 小时前
Cursor 项目实战:AI播客策划助手(二)—— 多轮交互打磨播客文案的技术实现与实践
前端·人工智能·状态模式·交互
西西弗Sisyphus6 小时前
线性代数 - 初等矩阵
人工智能·线性代数·机器学习
王哈哈^_^6 小时前
【数据集】【YOLO】【目标检测】共享单车数据集,共享单车识别数据集 3596 张,YOLO自行车识别算法实战训推教程。
人工智能·算法·yolo·目标检测·计算机视觉·视觉检测·毕业设计
仙人掌_lz6 小时前
Multi-Agent的编排模式总结/ Parlant和LangGraph差异对比
人工智能·ai·llm·原型模式·rag·智能体
背包客研究6 小时前
如何在机器学习中使用特征提取对表格数据进行处理
人工智能·机器学习