趣学贝叶斯统计:条件概率(1)

前言

到目前为止,我们只讨论了独立事件的概率。当一个事件的结果不影响另一个事件的结果时,这两个事件就是独立事件。例如,掷硬币时出现正面并不影响掷骰子是否会掷出6点。计算独立事件的概率要比计算非独立事件的概率容易得多,但独立事件往往并不能反映现实生活。例如,闹钟不响和上班迟到就不是独立事件。如果闹钟没有响,你上班迟到的可能性就要比其他时候大得多。

在本章中,你将学习如何分析条件概率,即事件的概率不是独立的,而是取决于特定事件的结果。此外,我还将介绍条件概率最重要的应用之一:贝叶斯定理。

一、条件概率

通常,人们患上GBS的概率为2/100 000。

如果你在那一年接种了流感疫苗,患上GBS的概率就会上升到3/100 000

P(患上GBS|接种流感疫苗)= 3 10000 \frac{3} {10000} 100003

1. 为什么条件概率很重要

条件概率是统计学的重要组成部分,因为它使我们能够证明信息是如何改变信念的。
P ( G B S |接种流感疫苗 ) P ( G B S ) = 1.5 \frac{P(GBS|接种流感疫苗)} {P(GBS)}=1.5 P(GBS)P(GBS|接种流感疫苗)=1.5

如果你在2010年接种过流感疫苗,我们就有足够的信息相信你比一个随机挑选的人患GBS的可能性高50%

2. 依赖性与概率法则的修订

在普通人群中,大约有4.25%的人是色盲。绝大多数的色盲病例是遗传性的。色盲症是由X染色体上的基因缺陷引起的。由于男性只有一条X染色体,而女性有两条X染色体,因此男性更易受到X染色体缺陷的不良影响,从而患有色盲的概率约为女性的16倍。因此,虽然整个人群的色盲率为4.25%,但女性是0.5%,而男性则是8%。

P(色盲)=0.0425

P(色盲|女性)=0.005

P(色盲|男性)=0.08

如果想求人群中男性的色盲概率,难道是

P(男性,色盲)=P(男性)*P(色盲)吗?那男女色盲的概率不就一样了?

乘法法则只有在事件独立的情况下才有效,而这里的性别和患有色盲症并不是独立的事件。

男性色盲出现的真正概率是男性出现的概率乘以他是色盲的概率。

P(男性,色盲)=P(男性)*P(色盲|男性)
P(A,B)=P(A)*P(B|A)

关于条件概率和统计的依赖性,需要注意的一个重要问题是,在现实中要知道两个事件的关系往往是很困难的。例如,我们可能想知道某人拥有一辆皮卡且上下班时间超过一小时的概率。虽然我们可以提出很多理由表明其中一个事件可能依赖另外一个事件(比如,很多拥有皮卡的人住在郊区,很少通勤),但我们可能找不到数据来证明这一点。假设两个事件独立(即使它们很可能不是)是统计学中非常常见的做法。但是,就像前面计算男性色盲概率的例子一样,这种假设有时会产生非常严重的错误。虽然独立性假设通常是出于实际需要,但我们不能忘记依赖性的影响有多大。

逆概率和贝叶斯定理

除了现有的概率,现在我们只有一条数据:客服代表是色盲。下一步就需要求出总人口中色盲的比例,然后,我们就可以搞清楚色盲人群中有多少是男性了。

为了帮助分析,我们增加一个新的变量N,用它代表总人口的数量。如前所述,首先需要计算出色盲人群的总数。我们知道出现色盲的概率[插图]色盲[插图],因此可以写出下面这部分等式:
P ( 男性 ∣ 色盲 ) = ? P ( 色盲 ) ∗ N P(男性|色盲)=\frac{?}{P(色盲)*N} P(男性∣色盲)=P(色盲)∗N?

群体中男性色盲人数?
P ( 男性 ) ∗ P ( 色盲 ∣ 男性 ) ∗ N P(男性)*P(色盲|男性)*N P(男性)∗P(色盲∣男性)∗N

因此,在已知客服患有色盲的情况下,他是男性色盲的概率为:
P ( 男性 ∣ 色盲 ) = P ( 男性 ) ∗ P ( 色盲 ∣ 男性 ∗ N P ( 色盲 ) ∗ N P(男性|色盲)=\frac{P(男性)*P(色盲|男性*N}{P(色盲)*N} P(男性∣色盲)=P(色盲)∗NP(男性)∗P(色盲∣男性∗N

消除N,
P ( 男性 ∣ 色盲 ) = P ( 男性 ) ∗ P ( 色盲 ∣ 男性 P ( 色盲 ) = 0.5 ∗ 0.08 0.0425 = 0.941 P(男性|色盲)=\frac{P(男性)*P(色盲|男性}{P(色盲)}=\frac{0.5*0.08}{0.0425}=0.941 P(男性∣色盲)=P(色盲)P(男性)∗P(色盲∣男性=0.04250.5∗0.08=0.941

相关推荐
南宫生15 分钟前
力扣-图论-17【算法学习day.67】
java·学习·算法·leetcode·图论
不想当程序猿_27 分钟前
【蓝桥杯每日一题】求和——前缀和
算法·前缀和·蓝桥杯
落魄君子39 分钟前
GA-BP分类-遗传算法(Genetic Algorithm)和反向传播算法(Backpropagation)
算法·分类·数据挖掘
菜鸡中的奋斗鸡→挣扎鸡1 小时前
滑动窗口 + 算法复习
数据结构·算法
Lenyiin1 小时前
第146场双周赛:统计符合条件长度为3的子数组数目、统计异或值为给定值的路径数目、判断网格图能否被切割成块、唯一中间众数子序列 Ⅰ
c++·算法·leetcode·周赛·lenyiin
郭wes代码1 小时前
Cmd命令大全(万字详细版)
python·算法·小程序
scan7241 小时前
LILAC采样算法
人工智能·算法·机器学习
菌菌的快乐生活2 小时前
理解支持向量机
算法·机器学习·支持向量机
大山同学2 小时前
第三章线性判别函数(二)
线性代数·算法·机器学习
axxy20002 小时前
leetcode之hot100---240搜索二维矩阵II(C++)
数据结构·算法