概率法则——贝叶斯定理

系统不确定性 源自有限的数据集大小，随着数据集增多，系统可以更好的预测新样本的类别。随机不确定性 源自噪声，即使数据集无限大，也无法达到完美的准确率。从源头减小这种不确定性的方法是收集不同类型的数据 。图（a）y(x1,x2)=sin(2πx1)sin(2πx2)y(x_1,x_2)=sin(2πx_1)sin(2πx_2)y(x1,x2)=sin(2πx1)sin(2πx2)的曲线图，并加入了高斯噪声；（b）100个数据点，位观测到x2x_2x2的图示，数据点看上去杂乱无章，显然噪声很大；（c）同样是100个数据点，将x2x_2x2固定为π/2π/2π/2，可以发现噪声水平明显降低了，能看出是一个正弦曲线。这说明收集不同类型的数据来训练模型是很有必要的。

这两种不确定性都可以用概率论的框架来处理。

加和法则和乘积法则

定义两个随机变量X，YX，YX，Y，∀xi∈X，∀yj∈Y，i=1,⋯,L；j=1,⋯,M∀x_i∈X，∀y_j∈Y，i=1,⋯,L；j=1,⋯,M∀xi∈X，∀yj∈Y，i=1,⋯,L；j=1,⋯,M。在癌症检查例子中XXX表示癌症存在与否，YYY表示检查结果。假设实验总共执行NNN次，同时对X,YX,YX,Y采样，

将X=xiX=x_iX=xi且Y=yjY=y_jY=yj的实验次数记为nijn_{ij}nij
将X=xiX=x_iX=xi（不考虑YYY）的实验次数记为cic_ici
将Y=yjY=y_jY=yj（不考虑XXX）的实验次数记为rjr_jrj

X,YX,YX,Y的联合概率分布为p(X=xi,Y=yj)=nijNp(X=x_i,Y=y_j)=\frac{n_{ij}}{N}p(X=xi,Y=yj)=Nnij在不考虑YYY的情况下，XXX取值为xix_ixi的概率p(X=xi)=ciNp(X=x_i)=\frac{c_i}{N}p(X=xi)=Nci又∑i=1Lp(X=xi)=1\sum_{i=1}^Lp(X=x_i)=1i=1∑Lp(X=xi)=1于是得到加和法则（也称边缘概率） p(X=xi)=∑j=1Mp(X=xi,Y=yj)p(X=x_i)=\sum_{j=1}^Mp(X=x_i,Y=y_j)p(X=xi)=j=1∑Mp(X=xi,Y=yj)在给定X=xiX=x_iX=xi下Y=yjY=y_jY=yj的条件概率记为p(Y=yj∣X=xi)=nijcip(Y=y_j|X=x_i)=\frac{n_{ij}}{c_i}p(Y=yj∣X=xi)=cinij综上，乘积法则 记为p(X=xi,Y=yj)=nijN=nijci⋅ciN=p(Y=yj∣X=xi)p(X=xi)p(X=x_i,Y=y_j)=\frac{n_{ij}}{N}=\frac{n_{ij}}{c_i}·\frac{c_i}{N}=p(Y=y_j|X=x_i)p(X=x_i)p(X=xi,Y=yj)=Nnij=cinij⋅Nci=p(Y=yj∣X=xi)p(X=xi)上诉写法过于复杂，可以简单记忆：

加和法则（通过求和其他变量得到）：p(X)=∑Yp(X,Y)p(X)=\sum_Yp(X,Y)p(X)=Y∑p(X,Y)乘法法则：p(X,Y)=p(Y∣X)p(X)p(X,Y)=p(Y|X)p(X)p(X,Y)=p(Y∣X)p(X)

贝叶斯定理（后验概率）

从乘积法则出发，结合对称性p(X,Y)=p(Y,X)p(X,Y)=p(Y,X)p(X,Y)=p(Y,X)可得贝叶斯定理p(Y∣X)=p(X∣Y)P(Y)p(X)p(Y|X)=\frac{p(X|Y)P(Y)}{p(X)}p(Y∣X)=p(X)p(X∣Y)P(Y)再利用加和法则可得p(X)=∑Yp(X∣Y)p(Y)p(X)=\sum_Yp(X|Y)p(Y)p(X)=Y∑p(X∣Y)p(Y)

医学筛查示例

200名检查者	实际患癌（C=1C=1C=1）	实际未患癌（C=0C=0C=0）
检测阳性（T=1T=1T=1）	真阳性(TP)：90人	假阳性(FP)：3人
检测阴性（T=0T=0T=0）	假阴性(FN)：10人	真阴性(TN)：97人

由上述混淆矩阵可以列出4种条件概率
p(T=1∣C=1)=90/100=0.90p(T=1|C=1)=90/100=0.90p(T=1∣C=1)=90/100=0.90p(T=0∣C=1)=10/100=0.10p(T=0|C=1)=10/100=0.10p(T=0∣C=1)=10/100=0.10p(T=1∣C=0)=3/100=0.03p(T=1|C=0)=3/100=0.03p(T=1∣C=0)=3/100=0.03p(T=0∣C=0)=97/100=0.97p(T=0|C=0)=97/100=0.97p(T=0∣C=0)=97/100=0.97

问题1：若对人群进行筛查，某人检查结果呈阳性的概率是多少？

p(T=1)=p(T=1∣C=0)p(C=0)+p(T=1∣C=1)p(C=1)=3100×99100+90100×1100=38710000=0.0387\begin{align*} p(T=1)&=p(T=1|C=0)p(C=0)+p(T=1|C=1)p(C=1) \\ &=\frac{3}{100}×\frac{99}{100}+\frac{90}{100}×\frac{1}{100}\\ &=\frac{387}{10000}=0.0387 \end{align*} p(T=1)=p(T=1∣C=0)p(C=0)+p(T=1∣C=1)p(C=1)=1003×10099+10090×1001=10000387=0.0387

问题2：若某人的检查结果呈阳性，那么他确实患有癌症的概率是多少？

p(C=1∣T=1)=p(T=1∣C=1)p(C=1)p(T=1)=90100×1100×10000387=90387≈0.23\begin{align*} p(C=1|T=1)&=\frac{p(T=1|C=1)p(C=1)}{p(T=1)} \\ &=\frac{90}{100}×\frac{1}{100}×\frac{10000}{387}\\ &=\frac{90}{387}≈0.23 \end{align*} p(C=1∣T=1)=p(T=1)p(T=1∣C=1)p(C=1)=10090×1001×38710000=38790≈0.23