趣学贝叶斯统计:条件概率(1)

前言

到目前为止,我们只讨论了独立事件的概率。当一个事件的结果不影响另一个事件的结果时,这两个事件就是独立事件。例如,掷硬币时出现正面并不影响掷骰子是否会掷出6点。计算独立事件的概率要比计算非独立事件的概率容易得多,但独立事件往往并不能反映现实生活。例如,闹钟不响和上班迟到就不是独立事件。如果闹钟没有响,你上班迟到的可能性就要比其他时候大得多。

在本章中,你将学习如何分析条件概率,即事件的概率不是独立的,而是取决于特定事件的结果。此外,我还将介绍条件概率最重要的应用之一:贝叶斯定理。

一、条件概率

通常,人们患上GBS的概率为2/100 000。

如果你在那一年接种了流感疫苗,患上GBS的概率就会上升到3/100 000

P(患上GBS|接种流感疫苗)= 3 10000 \frac{3} {10000} 100003

1. 为什么条件概率很重要

条件概率是统计学的重要组成部分,因为它使我们能够证明信息是如何改变信念的。
P ( G B S |接种流感疫苗 ) P ( G B S ) = 1.5 \frac{P(GBS|接种流感疫苗)} {P(GBS)}=1.5 P(GBS)P(GBS|接种流感疫苗)=1.5

如果你在2010年接种过流感疫苗,我们就有足够的信息相信你比一个随机挑选的人患GBS的可能性高50%

2. 依赖性与概率法则的修订

在普通人群中,大约有4.25%的人是色盲。绝大多数的色盲病例是遗传性的。色盲症是由X染色体上的基因缺陷引起的。由于男性只有一条X染色体,而女性有两条X染色体,因此男性更易受到X染色体缺陷的不良影响,从而患有色盲的概率约为女性的16倍。因此,虽然整个人群的色盲率为4.25%,但女性是0.5%,而男性则是8%。

P(色盲)=0.0425

P(色盲|女性)=0.005

P(色盲|男性)=0.08

如果想求人群中男性的色盲概率,难道是

P(男性,色盲)=P(男性)*P(色盲)吗?那男女色盲的概率不就一样了?

乘法法则只有在事件独立的情况下才有效,而这里的性别和患有色盲症并不是独立的事件。

男性色盲出现的真正概率是男性出现的概率乘以他是色盲的概率。

P(男性,色盲)=P(男性)*P(色盲|男性)
P(A,B)=P(A)*P(B|A)

关于条件概率和统计的依赖性,需要注意的一个重要问题是,在现实中要知道两个事件的关系往往是很困难的。例如,我们可能想知道某人拥有一辆皮卡且上下班时间超过一小时的概率。虽然我们可以提出很多理由表明其中一个事件可能依赖另外一个事件(比如,很多拥有皮卡的人住在郊区,很少通勤),但我们可能找不到数据来证明这一点。假设两个事件独立(即使它们很可能不是)是统计学中非常常见的做法。但是,就像前面计算男性色盲概率的例子一样,这种假设有时会产生非常严重的错误。虽然独立性假设通常是出于实际需要,但我们不能忘记依赖性的影响有多大。

逆概率和贝叶斯定理

除了现有的概率,现在我们只有一条数据:客服代表是色盲。下一步就需要求出总人口中色盲的比例,然后,我们就可以搞清楚色盲人群中有多少是男性了。

为了帮助分析,我们增加一个新的变量N,用它代表总人口的数量。如前所述,首先需要计算出色盲人群的总数。我们知道出现色盲的概率[插图]色盲[插图],因此可以写出下面这部分等式:
P ( 男性 ∣ 色盲 ) = ? P ( 色盲 ) ∗ N P(男性|色盲)=\frac{?}{P(色盲)*N} P(男性∣色盲)=P(色盲)∗N?

群体中男性色盲人数?
P ( 男性 ) ∗ P ( 色盲 ∣ 男性 ) ∗ N P(男性)*P(色盲|男性)*N P(男性)∗P(色盲∣男性)∗N

因此,在已知客服患有色盲的情况下,他是男性色盲的概率为:
P ( 男性 ∣ 色盲 ) = P ( 男性 ) ∗ P ( 色盲 ∣ 男性 ∗ N P ( 色盲 ) ∗ N P(男性|色盲)=\frac{P(男性)*P(色盲|男性*N}{P(色盲)*N} P(男性∣色盲)=P(色盲)∗NP(男性)∗P(色盲∣男性∗N

消除N,
P ( 男性 ∣ 色盲 ) = P ( 男性 ) ∗ P ( 色盲 ∣ 男性 P ( 色盲 ) = 0.5 ∗ 0.08 0.0425 = 0.941 P(男性|色盲)=\frac{P(男性)*P(色盲|男性}{P(色盲)}=\frac{0.5*0.08}{0.0425}=0.941 P(男性∣色盲)=P(色盲)P(男性)∗P(色盲∣男性=0.04250.5∗0.08=0.941

相关推荐
想跑步的小弱鸡3 小时前
Leetcode hot 100(day 3)
算法·leetcode·职场和发展
xyliiiiiL5 小时前
ZGC初步了解
java·jvm·算法
爱的叹息5 小时前
RedisTemplate 的 6 个可配置序列化器属性对比
算法·哈希算法
独好紫罗兰6 小时前
洛谷题单2-P5713 【深基3.例5】洛谷团队系统-python-流程图重构
开发语言·python·算法
每次的天空6 小时前
Android学习总结之算法篇四(字符串)
android·学习·算法
请来次降维打击!!!7 小时前
优选算法系列(5.位运算)
java·前端·c++·算法
qystca7 小时前
蓝桥云客 刷题统计
算法·模拟
别NULL7 小时前
机试题——统计最少媒体包发送源个数
c++·算法·媒体
weisian1518 小时前
Java常用工具算法-3--加密算法2--非对称加密算法(RSA常用,ECC,DSA)
java·开发语言·算法
程序员黄同学9 小时前
贪心算法,其优缺点是什么?
算法·贪心算法