趣学贝叶斯统计:条件概率(1)

前言

到目前为止,我们只讨论了独立事件的概率。当一个事件的结果不影响另一个事件的结果时,这两个事件就是独立事件。例如,掷硬币时出现正面并不影响掷骰子是否会掷出6点。计算独立事件的概率要比计算非独立事件的概率容易得多,但独立事件往往并不能反映现实生活。例如,闹钟不响和上班迟到就不是独立事件。如果闹钟没有响,你上班迟到的可能性就要比其他时候大得多。

在本章中,你将学习如何分析条件概率,即事件的概率不是独立的,而是取决于特定事件的结果。此外,我还将介绍条件概率最重要的应用之一:贝叶斯定理。

一、条件概率

通常,人们患上GBS的概率为2/100 000。

如果你在那一年接种了流感疫苗,患上GBS的概率就会上升到3/100 000

P(患上GBS|接种流感疫苗)= 3 10000 \frac{3} {10000} 100003

1. 为什么条件概率很重要

条件概率是统计学的重要组成部分,因为它使我们能够证明信息是如何改变信念的。
P ( G B S |接种流感疫苗 ) P ( G B S ) = 1.5 \frac{P(GBS|接种流感疫苗)} {P(GBS)}=1.5 P(GBS)P(GBS|接种流感疫苗)=1.5

如果你在2010年接种过流感疫苗,我们就有足够的信息相信你比一个随机挑选的人患GBS的可能性高50%

2. 依赖性与概率法则的修订

在普通人群中,大约有4.25%的人是色盲。绝大多数的色盲病例是遗传性的。色盲症是由X染色体上的基因缺陷引起的。由于男性只有一条X染色体,而女性有两条X染色体,因此男性更易受到X染色体缺陷的不良影响,从而患有色盲的概率约为女性的16倍。因此,虽然整个人群的色盲率为4.25%,但女性是0.5%,而男性则是8%。

P(色盲)=0.0425

P(色盲|女性)=0.005

P(色盲|男性)=0.08

如果想求人群中男性的色盲概率,难道是

P(男性,色盲)=P(男性)*P(色盲)吗?那男女色盲的概率不就一样了?

乘法法则只有在事件独立的情况下才有效,而这里的性别和患有色盲症并不是独立的事件。

男性色盲出现的真正概率是男性出现的概率乘以他是色盲的概率。

P(男性,色盲)=P(男性)*P(色盲|男性)
P(A,B)=P(A)*P(B|A)

关于条件概率和统计的依赖性,需要注意的一个重要问题是,在现实中要知道两个事件的关系往往是很困难的。例如,我们可能想知道某人拥有一辆皮卡且上下班时间超过一小时的概率。虽然我们可以提出很多理由表明其中一个事件可能依赖另外一个事件(比如,很多拥有皮卡的人住在郊区,很少通勤),但我们可能找不到数据来证明这一点。假设两个事件独立(即使它们很可能不是)是统计学中非常常见的做法。但是,就像前面计算男性色盲概率的例子一样,这种假设有时会产生非常严重的错误。虽然独立性假设通常是出于实际需要,但我们不能忘记依赖性的影响有多大。

逆概率和贝叶斯定理

除了现有的概率,现在我们只有一条数据:客服代表是色盲。下一步就需要求出总人口中色盲的比例,然后,我们就可以搞清楚色盲人群中有多少是男性了。

为了帮助分析,我们增加一个新的变量N,用它代表总人口的数量。如前所述,首先需要计算出色盲人群的总数。我们知道出现色盲的概率[插图]色盲[插图],因此可以写出下面这部分等式:
P ( 男性 ∣ 色盲 ) = ? P ( 色盲 ) ∗ N P(男性|色盲)=\frac{?}{P(色盲)*N} P(男性∣色盲)=P(色盲)∗N?

群体中男性色盲人数?
P ( 男性 ) ∗ P ( 色盲 ∣ 男性 ) ∗ N P(男性)*P(色盲|男性)*N P(男性)∗P(色盲∣男性)∗N

因此,在已知客服患有色盲的情况下,他是男性色盲的概率为:
P ( 男性 ∣ 色盲 ) = P ( 男性 ) ∗ P ( 色盲 ∣ 男性 ∗ N P ( 色盲 ) ∗ N P(男性|色盲)=\frac{P(男性)*P(色盲|男性*N}{P(色盲)*N} P(男性∣色盲)=P(色盲)∗NP(男性)∗P(色盲∣男性∗N

消除N,
P ( 男性 ∣ 色盲 ) = P ( 男性 ) ∗ P ( 色盲 ∣ 男性 P ( 色盲 ) = 0.5 ∗ 0.08 0.0425 = 0.941 P(男性|色盲)=\frac{P(男性)*P(色盲|男性}{P(色盲)}=\frac{0.5*0.08}{0.0425}=0.941 P(男性∣色盲)=P(色盲)P(男性)∗P(色盲∣男性=0.04250.5∗0.08=0.941

相关推荐
Flower#23 分钟前
【图论】判断图中有环的两种方法及实现
算法·深度优先·图论
胡桃不是夹子32 分钟前
学会了蛇形矩阵
c++·算法·矩阵
m0_675988231 小时前
Leetcode2597:美丽子集的数目
算法·leetcode·回溯·python3
丶重明1 小时前
【Go每日一练】返回切片中的最大值和最小值
算法·golang
aichitang20241 小时前
躲藏博弈:概率论与博弈论视角下的最优策略选择
概率论·博弈论
一只_程序媛1 小时前
【leetcode hot 100 234】回文链表
算法·leetcode·链表
qq_433554541 小时前
C++ 二叉搜索树代码
开发语言·c++·算法
Coder Zhang2 小时前
后序线索化二叉树,并找到指定结点前驱,非递归逆序输出
数据结构·算法
AI Chen2 小时前
【统计至简】【古典概率模型】联合概率、边缘概率、条件概率、全概率
概率论
云边有个稻草人2 小时前
【数据结构初阶第十八节】八大排序系列(上篇)—[详细动态图解+代码解析]
算法·冒泡排序·堆排序·希尔排序·八大排序·快排·直接插入排序