联合概率、条件概率和边缘概率以及贝叶斯定理

一、联合概率 (Joint Probability)

定义

事件A和事件B同时发生的概率，记作 P(A∩B) 或 P(A,B)

数学表达

离散情况：P(A∩B) = P(A,B)
连续情况：f(x,y) 为联合概率密度函数

核心特性

取值范围：0 ≤ P(A∩B) ≤ 1
交换律：P(A∩B) = P(B∩A)
如果A和B独立：P(A∩B) = P(A) × P(B)

示例：掷两个骰子

A：第一个骰子掷出3
B：第二个骰子掷出5
联合概率：P(A∩B) = 1/6 × 1/6 = 1/36

二、条件概率 (Conditional Probability)

定义

在已知事件B发生的条件下，事件A发生的概率，记作 P(A|B)

数学公式

text

复制代码

P(A|B) = P(A∩B) / P(B)，其中 P(B) > 0

直观理解

将样本空间缩小到事件B发生的范围
在B发生的"世界"里，看A发生的比例

关键性质

链式法则：P(A∩B) = P(A|B) × P(B) = P(B|A) × P(A)
取值范围：0 ≤ P(A|B) ≤ 1
与独立性的关系：如果A和B独立，则 P(A|B) = P(A)

经典示例：疾病检测

P(患病|检测阳性) ≠ P(检测阳性|患病)
这混淆是许多实际错误的根源

三、边缘概率 (Marginal Probability)

定义

在多变量概率分布中，不考虑其他变量时，某个变量单独的概率

计算方法

通过对联合概率"求和"或"积分"消除其他变量：

离散情况：

text

复制代码

P(A) = Σᵢ P(A∩Bᵢ) = Σᵢ P(A|Bᵢ)P(Bᵢ)

连续情况：

text

复制代码

fₓ(x) = ∫ f(x,y) dy

为什么叫"边缘"概率？

源自列联表中将合计写在表格"边缘"的习惯
例如：

	B₁	B₂	B₃	边缘和
A₁	0.1	0.2	0.1	0.4
A₂	0.2	0.1	0.3	0.6
边缘和	0.3	0.3	0.4	1.0

最右列和最下行就是边缘概率

四、三者关系与贝叶斯定理

1. 关系框架

text

复制代码

联合概率 P(A∩B)
    ↓
条件概率 P(A|B) = P(A∩B) / P(B)
    ↓
贝叶斯定理：P(A|B) = [P(B|A) × P(A)] / P(B)
    ↓
边缘概率 P(B) = Σᵢ P(B|Aᵢ)P(Aᵢ)

2. 实际应用示例（续用疾病检测）

设：

A：患病
B：检测阳性

已知：

联合概率：P(A∩B) = 0.0095 (患病且检测阳性的概率)
边缘概率：P(A) = 0.01 (患病率)，P(B) = 0.059 (检测阳性率)
条件概率：
- P(B|A) = 0.95 (患病时检测阳性)
- P(A|B) = ? (检测阳性时真正患病)

计算：

text

复制代码

P(A|B) = P(A∩B) / P(B) = 0.0095 / 0.059 ≈ 0.161

五、贝叶斯定理核心思想

贝叶斯定理描述的是在已知某些证据（数据）的情况下，如何更新我们对某个假设的信念（概率）。它本质上是条件概率的推理工具，将"因果"与"果因"推理联系起来。

六、贝叶斯定理基本公式

text

复制代码

P(A|B) = [P(B|A) × P(A)] / P(B)

公式解读：

P(A|B)：后验概率（Posterior）
- 在观察到事件B发生后，事件A发生的概率
- 这是我们最终想要计算的结果
P(B|A)：似然度（Likelihood）
- 假设A为真的情况下，观察到B的概率
- 反映了证据与假设的匹配程度
P(A)：先验概率（Prior）
- 在观察到B之前，我们对A发生概率的初始信念
- 基于历史数据或主观判断
P(B)：边际概率（Marginal Probability）
- 事件B发生的总概率
- 常通过全概率公式计算：P(B) = P(B|A)P(A) + P(B|¬A)P(¬A)