概率法则——贝叶斯定理

系统不确定性 源自有限的数据集大小,随着数据集增多,系统可以更好的预测新样本的类别。随机不确定性 源自噪声,即使数据集无限大,也无法达到完美的准确率。从源头减小这种不确定性的方法是收集不同类型的数据 。图(a)y(x1,x2)=sin(2πx1)sin(2πx2)y(x_1,x_2)=sin(2πx_1)sin(2πx_2)y(x1,x2)=sin(2πx1)sin(2πx2)的曲线图,并加入了高斯噪声;(b)100个数据点,位观测到x2x_2x2的图示,数据点看上去杂乱无章,显然噪声很大;(c)同样是100个数据点,将x2x_2x2固定为π/2π/2π/2,可以发现噪声水平明显降低了,能看出是一个正弦曲线。这说明收集不同类型的数据来训练模型是很有必要的。

这两种不确定性都可以用概率论的框架来处理。

加和法则和乘积法则

定义两个随机变量X,YX,YX,Y,∀xi∈X,∀yj∈Y,i=1,⋯,L;j=1,⋯,M∀x_i∈X,∀y_j∈Y,i=1,⋯,L;j=1,⋯,M∀xi∈X,∀yj∈Y,i=1,⋯,L;j=1,⋯,M。在癌症检查例子中XXX表示癌症存在与否,YYY表示检查结果。假设实验总共执行NNN次,同时对X,YX,YX,Y采样,

  • 将X=xiX=x_iX=xi且Y=yjY=y_jY=yj的实验次数记为nijn_{ij}nij
  • 将X=xiX=x_iX=xi(不考虑YYY)的实验次数记为cic_ici
  • 将Y=yjY=y_jY=yj(不考虑XXX)的实验次数记为rjr_jrj


X,YX,YX,Y的联合概率分布为p(X=xi,Y=yj)=nijNp(X=x_i,Y=y_j)=\frac{n_{ij}}{N}p(X=xi,Y=yj)=Nnij在不考虑YYY的情况下,XXX取值为xix_ixi的概率p(X=xi)=ciNp(X=x_i)=\frac{c_i}{N}p(X=xi)=Nci又∑i=1Lp(X=xi)=1\sum_{i=1}^Lp(X=x_i)=1i=1∑Lp(X=xi)=1于是得到加和法则(也称边缘概率) p(X=xi)=∑j=1Mp(X=xi,Y=yj)p(X=x_i)=\sum_{j=1}^Mp(X=x_i,Y=y_j)p(X=xi)=j=1∑Mp(X=xi,Y=yj)在给定X=xiX=x_iX=xi下Y=yjY=y_jY=yj的条件概率记为p(Y=yj∣X=xi)=nijcip(Y=y_j|X=x_i)=\frac{n_{ij}}{c_i}p(Y=yj∣X=xi)=cinij综上,乘积法则 记为p(X=xi,Y=yj)=nijN=nijci⋅ciN=p(Y=yj∣X=xi)p(X=xi)p(X=x_i,Y=y_j)=\frac{n_{ij}}{N}=\frac{n_{ij}}{c_i}·\frac{c_i}{N}=p(Y=y_j|X=x_i)p(X=x_i)p(X=xi,Y=yj)=Nnij=cinij⋅Nci=p(Y=yj∣X=xi)p(X=xi)上诉写法过于复杂,可以简单记忆:

加和法则(通过求和其他变量得到):p(X)=∑Yp(X,Y)p(X)=\sum_Yp(X,Y)p(X)=Y∑p(X,Y)乘法法则:p(X,Y)=p(Y∣X)p(X)p(X,Y)=p(Y|X)p(X)p(X,Y)=p(Y∣X)p(X)

贝叶斯定理(后验概率)

从乘积法则出发,结合对称性p(X,Y)=p(Y,X)p(X,Y)=p(Y,X)p(X,Y)=p(Y,X)可得贝叶斯定理p(Y∣X)=p(X∣Y)P(Y)p(X)p(Y|X)=\frac{p(X|Y)P(Y)}{p(X)}p(Y∣X)=p(X)p(X∣Y)P(Y)再利用加和法则可得p(X)=∑Yp(X∣Y)p(Y)p(X)=\sum_Yp(X|Y)p(Y)p(X)=Y∑p(X∣Y)p(Y)

医学筛查示例

200名检查者 实际患癌(C=1C=1C=1) 实际未患癌(C=0C=0C=0)
检测阳性(T=1T=1T=1) 真阳性(TP):90人 假阳性(FP):3人
检测阴性(T=0T=0T=0) 假阴性(FN):10人 真阴性(TN):97人

由上述混淆矩阵可以列出4种条件概率
p(T=1∣C=1)=90/100=0.90p(T=1|C=1)=90/100=0.90p(T=1∣C=1)=90/100=0.90p(T=0∣C=1)=10/100=0.10p(T=0|C=1)=10/100=0.10p(T=0∣C=1)=10/100=0.10p(T=1∣C=0)=3/100=0.03p(T=1|C=0)=3/100=0.03p(T=1∣C=0)=3/100=0.03p(T=0∣C=0)=97/100=0.97p(T=0|C=0)=97/100=0.97p(T=0∣C=0)=97/100=0.97

问题1:若对人群进行筛查,某人检查结果呈阳性的概率是多少?

p(T=1)=p(T=1∣C=0)p(C=0)+p(T=1∣C=1)p(C=1)=3100×99100+90100×1100=38710000=0.0387\begin{align*} p(T=1)&=p(T=1|C=0)p(C=0)+p(T=1|C=1)p(C=1) \\ &=\frac{3}{100}×\frac{99}{100}+\frac{90}{100}×\frac{1}{100}\\ &=\frac{387}{10000}=0.0387 \end{align*} p(T=1)=p(T=1∣C=0)p(C=0)+p(T=1∣C=1)p(C=1)=1003×10099+10090×1001=10000387=0.0387

问题2:若某人的检查结果呈阳性,那么他确实患有癌症的概率是多少?

p(C=1∣T=1)=p(T=1∣C=1)p(C=1)p(T=1)=90100×1100×10000387=90387≈0.23\begin{align*} p(C=1|T=1)&=\frac{p(T=1|C=1)p(C=1)}{p(T=1)} \\ &=\frac{90}{100}×\frac{1}{100}×\frac{10000}{387}\\ &=\frac{90}{387}≈0.23 \end{align*} p(C=1∣T=1)=p(T=1)p(T=1∣C=1)p(C=1)=10090×1001×38710000=38790≈0.23

相关推荐
剑穗挂着新流苏3123 小时前
202_深度学习的动力源泉:矩阵微积分与自动求导 (Autograd)
人工智能·pytorch·python·深度学习·神经网络
香芋超新星3 小时前
深度学习优化器演进笔记:从SGD到Adam
深度学习
爱丽_3 小时前
高维问题如何“降维计算”:矩阵映射、卷积与拆分汇总
深度学习·矩阵·cnn
皮蛋瘦肉熬不成粥4 小时前
MES(The Measures of Effect Size )工具箱的使用
matlab·概率论
人工智能研究所5 小时前
字节开源 DeerFlow 2.0——登顶 GitHub Trending 1,让 AI 可做任何事情
人工智能·深度学习·开源·github·ai agent·字节跳动·deerflow2.0
万里鹏程转瞬至5 小时前
为什么早期线性注意力没有成为主流大模型方案?
深度学习·aigc
逻辑君5 小时前
Research in Brain-inspired Computing [9]-球机器人研究【2】
人工智能·深度学习·神经网络·机器人
这张生成的图像能检测吗5 小时前
(论文速读)TDANN:用于轴承故障诊断的三域对抗神经网络
人工智能·深度学习·神经网络·故障诊断
向哆哆6 小时前
人脸眼部特征检测数据集(千张图片已划分、已标注)适用于YOLO系列深度学习分类检测任务
深度学习·yolo·分类
Chasing Aurora7 小时前
Python后端开发之旅(五)——DL
开发语言·pytorch·python·深度学习