趣学贝叶斯统计:条件概率(1)

前言

到目前为止,我们只讨论了独立事件的概率。当一个事件的结果不影响另一个事件的结果时,这两个事件就是独立事件。例如,掷硬币时出现正面并不影响掷骰子是否会掷出6点。计算独立事件的概率要比计算非独立事件的概率容易得多,但独立事件往往并不能反映现实生活。例如,闹钟不响和上班迟到就不是独立事件。如果闹钟没有响,你上班迟到的可能性就要比其他时候大得多。

在本章中,你将学习如何分析条件概率,即事件的概率不是独立的,而是取决于特定事件的结果。此外,我还将介绍条件概率最重要的应用之一:贝叶斯定理。

一、条件概率

通常,人们患上GBS的概率为2/100 000。

如果你在那一年接种了流感疫苗,患上GBS的概率就会上升到3/100 000

P(患上GBS|接种流感疫苗)= 3 10000 \frac{3} {10000} 100003

1. 为什么条件概率很重要

条件概率是统计学的重要组成部分,因为它使我们能够证明信息是如何改变信念的。
P ( G B S |接种流感疫苗 ) P ( G B S ) = 1.5 \frac{P(GBS|接种流感疫苗)} {P(GBS)}=1.5 P(GBS)P(GBS|接种流感疫苗)=1.5

如果你在2010年接种过流感疫苗,我们就有足够的信息相信你比一个随机挑选的人患GBS的可能性高50%

2. 依赖性与概率法则的修订

在普通人群中,大约有4.25%的人是色盲。绝大多数的色盲病例是遗传性的。色盲症是由X染色体上的基因缺陷引起的。由于男性只有一条X染色体,而女性有两条X染色体,因此男性更易受到X染色体缺陷的不良影响,从而患有色盲的概率约为女性的16倍。因此,虽然整个人群的色盲率为4.25%,但女性是0.5%,而男性则是8%。

P(色盲)=0.0425

P(色盲|女性)=0.005

P(色盲|男性)=0.08

如果想求人群中男性的色盲概率,难道是

P(男性,色盲)=P(男性)*P(色盲)吗?那男女色盲的概率不就一样了?

乘法法则只有在事件独立的情况下才有效,而这里的性别和患有色盲症并不是独立的事件。

男性色盲出现的真正概率是男性出现的概率乘以他是色盲的概率。

P(男性,色盲)=P(男性)*P(色盲|男性)
P(A,B)=P(A)*P(B|A)

关于条件概率和统计的依赖性,需要注意的一个重要问题是,在现实中要知道两个事件的关系往往是很困难的。例如,我们可能想知道某人拥有一辆皮卡且上下班时间超过一小时的概率。虽然我们可以提出很多理由表明其中一个事件可能依赖另外一个事件(比如,很多拥有皮卡的人住在郊区,很少通勤),但我们可能找不到数据来证明这一点。假设两个事件独立(即使它们很可能不是)是统计学中非常常见的做法。但是,就像前面计算男性色盲概率的例子一样,这种假设有时会产生非常严重的错误。虽然独立性假设通常是出于实际需要,但我们不能忘记依赖性的影响有多大。

逆概率和贝叶斯定理

除了现有的概率,现在我们只有一条数据:客服代表是色盲。下一步就需要求出总人口中色盲的比例,然后,我们就可以搞清楚色盲人群中有多少是男性了。

为了帮助分析,我们增加一个新的变量N,用它代表总人口的数量。如前所述,首先需要计算出色盲人群的总数。我们知道出现色盲的概率[插图]色盲[插图],因此可以写出下面这部分等式:
P ( 男性 ∣ 色盲 ) = ? P ( 色盲 ) ∗ N P(男性|色盲)=\frac{?}{P(色盲)*N} P(男性∣色盲)=P(色盲)∗N?

群体中男性色盲人数?
P ( 男性 ) ∗ P ( 色盲 ∣ 男性 ) ∗ N P(男性)*P(色盲|男性)*N P(男性)∗P(色盲∣男性)∗N

因此,在已知客服患有色盲的情况下,他是男性色盲的概率为:
P ( 男性 ∣ 色盲 ) = P ( 男性 ) ∗ P ( 色盲 ∣ 男性 ∗ N P ( 色盲 ) ∗ N P(男性|色盲)=\frac{P(男性)*P(色盲|男性*N}{P(色盲)*N} P(男性∣色盲)=P(色盲)∗NP(男性)∗P(色盲∣男性∗N

消除N,
P ( 男性 ∣ 色盲 ) = P ( 男性 ) ∗ P ( 色盲 ∣ 男性 P ( 色盲 ) = 0.5 ∗ 0.08 0.0425 = 0.941 P(男性|色盲)=\frac{P(男性)*P(色盲|男性}{P(色盲)}=\frac{0.5*0.08}{0.0425}=0.941 P(男性∣色盲)=P(色盲)P(男性)∗P(色盲∣男性=0.04250.5∗0.08=0.941

相关推荐
VertexGeek3 分钟前
Rust学习(八):异常处理和宏编程:
学习·算法·rust
石小石Orz3 分钟前
Three.js + AI:AI 算法生成 3D 萤火虫飞舞效果~
javascript·人工智能·算法
jiao_mrswang1 小时前
leetcode-18-四数之和
算法·leetcode·职场和发展
qystca1 小时前
洛谷 B3637 最长上升子序列 C语言 记忆化搜索->‘正序‘dp
c语言·开发语言·算法
薯条不要番茄酱1 小时前
数据结构-8.Java. 七大排序算法(中篇)
java·开发语言·数据结构·后端·算法·排序算法·intellij-idea
今天吃饺子1 小时前
2024年SCI一区最新改进优化算法——四参数自适应生长优化器,MATLAB代码免费获取...
开发语言·算法·matlab
是阿建吖!1 小时前
【优选算法】二分查找
c++·算法
王燕龙(大卫)1 小时前
leetcode 数组中第k个最大元素
算法·leetcode
TomcatLikeYou2 小时前
概率论的事件类型分类
概率论
不去幼儿园2 小时前
【MARL】深入理解多智能体近端策略优化(MAPPO)算法与调参
人工智能·python·算法·机器学习·强化学习