概率论
核心目标:掌握机器学习处理不确定性时的基本语言------概率、随机变量、条件推断与数字特征。
机器学习本质是在不确定性下做预测,概率论提供了描述和推理不确定性的框架。
1. 概率基本概念
1.1 随机试验
随机试验需满足三个条件:
| 条件 | 含义 |
|---|---|
| 可重复(Replicable) | 可在相同条件下重复进行 |
| 结果已知(Known Outcomes) | 所有可能结果事先可知 |
| 不确定性(Uncertainty) | 单次试验前,具体结果不确定 |
1.2 样本空间与事件
- 样本空间 SSS:所有可能结果的集合。如掷骰子 S={1,2,3,4,5,6}S = \{1,2,3,4,5,6\}S={1,2,3,4,5,6}
- 事件 (随机事件):样本空间的子集。如"掷出偶数" ={2,4,6}= \{2,4,6\}={2,4,6}
1.3 频率与概率
| 概念 | 含义 |
|---|---|
| 频率 | 某事件在重复试验中出现的比例(已发生) |
| 概率 | 事件发生可能性的数值刻画,0≤P(A)≤10 \le P(A) \le 10≤P(A)≤1 |
实验次数足够多时,频率会稳定到概率附近(大数定律直觉)。
概率公理:
- 非负性 :P(A)≥0P(A) \ge 0P(A)≥0
- 规范性 :P(S)=1P(S) = 1P(S)=1
- 可列可加性 :若 AAA 与 BBB 互斥,则 P(A∪B)=P(A)+P(B)P(A \cup B) = P(A) + P(B)P(A∪B)=P(A)+P(B)
1.4 示例:抛骰子与频率
python
import torch
from torch.distributions import multinomial
# 公平骰子:每面概率 1/6
fair_probs = torch.ones(6) / 6
# 抛 1000 次,counts 记录每个面出现的次数
counts = multinomial.Multinomial(1000, fair_probs).sample()
print(counts)
# 频率 ≈ 概率
print(counts / 1000) # 接近 [1/6, ..., 1/6]
2. 随机变量
随机变量 (Random Variable)本质是一个映射函数:把样本空间中的结果映射到实数。
| 要点 | 说明 |
|---|---|
| "随机" | 事件发生前,取值不确定 |
| "变量" | 取值随试验结果而变化 |
| 记号 | 通常用大写字母:XXX、YYY、ZZZ |
抛硬币示例:
- 样本空间:S={H,T}S = \{H, T\}S={H,T}
- 定义 XXX:H→1H \to 1H→1,T→0T \to 0T→0
- XXX 是映射规则,不是某一次具体结果;抛掷前 XXX 可能是 0 或 1,结果发生后 XXX 确定
按取值类型分类:
| 类型 | 特点 | 例子 |
|---|---|---|
| 离散 | 取值可数 | 骰子点数、类别标签 |
| 连续 | 取值连续 | 身高、体重、像素值 |
3. 联合、条件与边缘概率
给定随机变量 AAA、BBB:
| 概念 | 记号 | 含义 |
|---|---|---|
| 联合概率 | P(A=a,B=b)P(A=a, B=b)P(A=a,B=b) | 两件事同时发生 |
| 条件概率 | P(B=b∣A=a)P(B=b \mid A=a)P(B=b∣A=a) | 已知 AAA 发生时,BBB 发生的概率 |
| 边缘概率 | P(B)P(B)P(B) | 忽略其他变量,BBB 发生的总概率 |
3.1 条件概率
P(B∣A)=P(A,B)P(A)(P(A)>0) P(B \mid A) = \frac{P(A, B)}{P(A)} \quad (P(A) > 0) P(B∣A)=P(A)P(A,B)(P(A)>0)
3.2 边缘概率
P(B)=∑AP(A,B) P(B) = \sum_A P(A, B) P(B)=A∑P(A,B)
边缘概率 = 把其他变量的所有可能性加总掉,得到单个变量的分布。
名称来源:联合分布用表格表示时,按行或列加总的结果写在表格边缘。
3.3 示例:台风与下雨
| 变量 | 含义 |
|---|---|
| TTT | 是否有台风(1=有,0=无) |
| RRR | 是否下雨(1=下,0=不下) |
已知:
- P(T=1)=0.2P(T=1) = 0.2P(T=1)=0.2,P(T=0)=0.8P(T=0) = 0.8P(T=0)=0.8
- P(R=1∣T=1)=0.9P(R=1 \mid T=1) = 0.9P(R=1∣T=1)=0.9,P(R=1∣T=0)=0.2P(R=1 \mid T=0) = 0.2P(R=1∣T=0)=0.2
问题 :今天下雨的总概率 P(R=1)P(R=1)P(R=1) 是多少?
P(R=1)=P(R=1,T=1)+P(R=1,T=0)=P(T=1)⋅P(R=1∣T=1)+P(T=0)⋅P(R=1∣T=0)=0.2×0.9+0.8×0.2=0.34 \begin{align} P(R=1) &= P(R=1, T=1) + P(R=1, T=0) \\ &= P(T=1) \cdot P(R=1 \mid T=1) + P(T=0) \cdot P(R=1 \mid T=0) \\ &= 0.2 \times 0.9 + 0.8 \times 0.2 \\ &= 0.34 \end{align} P(R=1)=P(R=1,T=1)+P(R=1,T=0)=P(T=1)⋅P(R=1∣T=1)+P(T=0)⋅P(R=1∣T=0)=0.2×0.9+0.8×0.2=0.34
联合分布表:
| P(雨,台风)P(\text{雨}, \text{台风})P(雨,台风) | 有台风 (T=1T=1T=1) | 没台风 (T=0T=0T=0) | 行加总(雨的边际) |
|---|---|---|---|
| 下雨 (R=1R=1R=1) | 0.18 | 0.16 | 0.34 |
| 没下雨 (R=0R=0R=0) | 0.02 | 0.64 | 0.66 |
| 列加总(台风的边际) | 0.20 | 0.80 | 1.00 |
一句话:边缘概率 = 当你忽略或不知道某些因素时,某事件发生的总概率。
4. 全概率公式与贝叶斯定理
4.1 全概率公式
若 B1,B2,...,BnB_1, B_2, \dots, B_nB1,B2,...,Bn 构成样本空间 SSS 的一个划分(互斥且穷尽),则:
P(A)=∑i=1nP(A∣Bi)⋅P(Bi) P(A) = \sum_{i=1}^{n} P(A \mid B_i) \cdot P(B_i) P(A)=i=1∑nP(A∣Bi)⋅P(Bi)
4.2 贝叶斯公式
P(Bi∣A)=P(A∣Bi)⋅P(Bi)P(A)=P(A∣Bi)⋅P(Bi)∑j=1nP(A∣Bj)⋅P(Bj) P(B_i \mid A) = \frac{P(A \mid B_i) \cdot P(B_i)}{P(A)} = \frac{P(A \mid B_i) \cdot P(B_i)}{\sum_{j=1}^{n} P(A \mid B_j) \cdot P(B_j)} P(Bi∣A)=P(A)P(A∣Bi)⋅P(Bi)=∑j=1nP(A∣Bj)⋅P(Bj)P(A∣Bi)⋅P(Bi)
| 术语 | 符号 | 含义 |
|---|---|---|
| 先验 | P(Bi)P(B_i)P(Bi) | 看到证据前的初始判断 |
| 似然度 | P(A∣Bi)P(A \mid B_i)P(A∣Bi) | 若原因 BiB_iBi 成立,证据 AAA 出现的可能性 |
| 证据/边际 | P(A)P(A)P(A) | 证据发生的总概率(全概率公式) |
| 后验 | P(Bi∣A)P(B_i \mid A)P(Bi∣A) | 看到证据后,对原因 BiB_iBi 的更新判断 |
两种问法:
- 概率论常问:已知原因,结果发生的概率?→ P(A∣Bi)P(A \mid B_i)P(A∣Bi)
- 贝叶斯问:已知结果,原因是某个的概率?→ P(Bi∣A)P(B_i \mid A)P(Bi∣A)
核心思想:根据新证据更新旧看法。常用于医疗检测、故障诊断、垃圾邮件分类等。
4.3 示例 1:两盒抽球
- 盒子 A:3 红 1 白,P(红∣A)=0.75P(\text{红} \mid A) = 0.75P(红∣A)=0.75
- 盒子 B:1 红 3 白,P(红∣B)=0.25P(\text{红} \mid B) = 0.25P(红∣B)=0.25
- 随机选盒,抽到红球。求 P(A∣红)P(A \mid \text{红})P(A∣红)?
| 步骤 | 计算 |
|---|---|
| 先验 | P(A)=P(B)=0.5P(A) = P(B) = 0.5P(A)=P(B)=0.5 |
| 似然 | P(红∣A)=0.75P(\text{红} \mid A) = 0.75P(红∣A)=0.75,P(红∣B)=0.25P(\text{红} \mid B) = 0.25P(红∣B)=0.25 |
| 证据 | P(红)=0.75×0.5+0.25×0.5=0.5P(\text{红}) = 0.75 \times 0.5 + 0.25 \times 0.5 = 0.5P(红)=0.75×0.5+0.25×0.5=0.5 |
| 后验 | P(A∣红)=0.75×0.50.5=0.75P(A \mid \text{红}) = \dfrac{0.75 \times 0.5}{0.5} = 0.75P(A∣红)=0.50.75×0.5=0.75 |
观察到红球后,"来自盒子 A"的概率从 0.5 更新到 0.75。
4.4 示例 2:医疗检测(反直觉)
| 参数 | 值 |
|---|---|
| 患病率(先验) | P(H=1)=0.0015P(H=1) = 0.0015P(H=1)=0.0015 |
| 检测灵敏度 | P(D=1∣H=1)=1P(D=1 \mid H=1) = 1P(D=1∣H=1)=1(患病必检出) |
| 假阳性率 | P(D=1∣H=0)=0.01P(D=1 \mid H=0) = 0.01P(D=1∣H=0)=0.01 |
检测为阳性的总概率:
P(D=1)=1×0.0015+0.01×0.9985=0.011485 P(D=1) = 1 \times 0.0015 + 0.01 \times 0.9985 = 0.011485 P(D=1)=1×0.0015+0.01×0.9985=0.011485
真正患病的后验概率:
P(H=1∣D=1)=1×0.00150.011485≈0.1306 P(H=1 \mid D=1) = \frac{1 \times 0.0015}{0.011485} \approx 0.1306 P(H=1∣D=1)=0.0114851×0.0015≈0.1306
测出阳性,真正患病的概率只有 13.06%。
原因:患病率极低时,健康人基数很大,即使假阳性率只有 1%,也会产生大量假阳性。单次阳性不足以断定患病,稀有事件背景下概率常违反直觉。
注意:P(D=1∣H=1)=1P(D=1 \mid H=1) = 1P(D=1∣H=1)=1 与 P(H=1∣D=1)≈0.13P(H=1 \mid D=1) \approx 0.13P(H=1∣D=1)≈0.13 并不矛盾------前者是"患病时检出",后者是"检出时患病"。
5. 独立性
5.1 独立
若 AAA 与 BBB 独立,则:
P(A,B)=P(A)⋅P(B) P(A, B) = P(A) \cdot P(B) P(A,B)=P(A)⋅P(B)
知道 AAA 是否发生,不改变 BBB 发生的概率。
5.2 条件独立
给定 CCC,若 AAA 与 BBB 条件独立:
P(A,B∣C)=P(A∣C)⋅P(B∣C) P(A, B \mid C) = P(A \mid C) \cdot P(B \mid C) P(A,B∣C)=P(A∣C)⋅P(B∣C)
在已知 CCC 的前提下,AAA 与 BBB 互不影响。图模型、朴素贝叶斯分类器中常见。
6. 期望与方差
| 数字特征 | 含义 |
|---|---|
| 期望 E(X)E(X)E(X) | 随机变量的"中心"(平均值) |
| 方差 D(X)D(X)D(X) / Var(X)\mathrm{Var}(X)Var(X) | 随机变量围绕中心的"波动" |
| 标准差 σ(X)\sigma(X)σ(X) | 方差的算术平方根 |
6.1 离散型
E(X)=∑kxkpk E(X) = \sum_k x_k p_k E(X)=k∑xkpk
D(X)=∑kxk−E(X)2pk D(X) = \sum_k x_k - E(X)^2 p_k D(X)=k∑xk−E(X)2pk
6.2 连续型
E(X)=∫−∞∞x f(x) dx E(X) = \int_{-\infty}^{\infty} x \, f(x) \, dx E(X)=∫−∞∞xf(x)dx
D(X)=∫−∞∞x−E(X)2f(x) dx D(X) = \int_{-\infty}^{\infty} x - E(X)^2 f(x) \, dx D(X)=∫−∞∞x−E(X)2f(x)dx
6.3 方差的等价形式
Var(X)=E(X−E\[X)2]=E(X2)−E(X)2 \mathrm{Var}(X) = E\left(X - E\[X)^2\right] = E(X^2) - E(X)^2 Var(X)=E(X−E\[X)2]=E(X2)−E(X)2
σ(X)=D(X) \sigma(X) = \sqrt{D(X)} σ(X)=D(X)
7. 概念关系速览
#mermaid-svg-5QK4jxH4PilbZwXj{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-5QK4jxH4PilbZwXj .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-5QK4jxH4PilbZwXj .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-5QK4jxH4PilbZwXj .error-icon{fill:#552222;}#mermaid-svg-5QK4jxH4PilbZwXj .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-5QK4jxH4PilbZwXj .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-5QK4jxH4PilbZwXj .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-5QK4jxH4PilbZwXj .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-5QK4jxH4PilbZwXj .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-5QK4jxH4PilbZwXj .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-5QK4jxH4PilbZwXj .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-5QK4jxH4PilbZwXj .marker{fill:#333333;stroke:#333333;}#mermaid-svg-5QK4jxH4PilbZwXj .marker.cross{stroke:#333333;}#mermaid-svg-5QK4jxH4PilbZwXj svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-5QK4jxH4PilbZwXj p{margin:0;}#mermaid-svg-5QK4jxH4PilbZwXj .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-5QK4jxH4PilbZwXj .cluster-label text{fill:#333;}#mermaid-svg-5QK4jxH4PilbZwXj .cluster-label span{color:#333;}#mermaid-svg-5QK4jxH4PilbZwXj .cluster-label span p{background-color:transparent;}#mermaid-svg-5QK4jxH4PilbZwXj .label text,#mermaid-svg-5QK4jxH4PilbZwXj span{fill:#333;color:#333;}#mermaid-svg-5QK4jxH4PilbZwXj .node rect,#mermaid-svg-5QK4jxH4PilbZwXj .node circle,#mermaid-svg-5QK4jxH4PilbZwXj .node ellipse,#mermaid-svg-5QK4jxH4PilbZwXj .node polygon,#mermaid-svg-5QK4jxH4PilbZwXj .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-5QK4jxH4PilbZwXj .rough-node .label text,#mermaid-svg-5QK4jxH4PilbZwXj .node .label text,#mermaid-svg-5QK4jxH4PilbZwXj .image-shape .label,#mermaid-svg-5QK4jxH4PilbZwXj .icon-shape .label{text-anchor:middle;}#mermaid-svg-5QK4jxH4PilbZwXj .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-5QK4jxH4PilbZwXj .rough-node .label,#mermaid-svg-5QK4jxH4PilbZwXj .node .label,#mermaid-svg-5QK4jxH4PilbZwXj .image-shape .label,#mermaid-svg-5QK4jxH4PilbZwXj .icon-shape .label{text-align:center;}#mermaid-svg-5QK4jxH4PilbZwXj .node.clickable{cursor:pointer;}#mermaid-svg-5QK4jxH4PilbZwXj .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-5QK4jxH4PilbZwXj .arrowheadPath{fill:#333333;}#mermaid-svg-5QK4jxH4PilbZwXj .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-5QK4jxH4PilbZwXj .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-5QK4jxH4PilbZwXj .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-5QK4jxH4PilbZwXj .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-5QK4jxH4PilbZwXj .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-5QK4jxH4PilbZwXj .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-5QK4jxH4PilbZwXj .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-5QK4jxH4PilbZwXj .cluster text{fill:#333;}#mermaid-svg-5QK4jxH4PilbZwXj .cluster span{color:#333;}#mermaid-svg-5QK4jxH4PilbZwXj div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-5QK4jxH4PilbZwXj .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-5QK4jxH4PilbZwXj rect.text{fill:none;stroke-width:0;}#mermaid-svg-5QK4jxH4PilbZwXj .icon-shape,#mermaid-svg-5QK4jxH4PilbZwXj .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-5QK4jxH4PilbZwXj .icon-shape p,#mermaid-svg-5QK4jxH4PilbZwXj .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-5QK4jxH4PilbZwXj .icon-shape .label rect,#mermaid-svg-5QK4jxH4PilbZwXj .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-5QK4jxH4PilbZwXj .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-5QK4jxH4PilbZwXj .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-5QK4jxH4PilbZwXj :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 数字特征
概率推断
多变量概率
基础概念
大数定律
随机试验
样本空间 S
事件
随机变量
联合概率
条件概率
边缘概率
独立性
全概率公式
贝叶斯公式
期望与方差
频率
概率
说明:
- 基础概念:试验产生样本空间,事件是其子集,随机变量是其到实数的映射
- 多变量概率:联合概率可分解为条件概率与边缘概率;独立时联合 = 边际之积
- 概率推断 :全概率把 P(A)P(A)P(A) 按原因展开;贝叶斯由全概率 + 条件概率反推原因
- 频率 → 概率:重复试验的频率在大数定律下逼近概率
8. 易错点速查
| 易错点 | 正确理解 |
|---|---|
| 混淆 P(A∣B)P(A \mid B)P(A∣B) 与 P(B∣A)P(B \mid A)P(B∣A) | 条件方向不同,数值一般不等 |
| 把高灵敏度当成高后验 | 稀有疾病下,阳性后验仍可能很低 |
| 联合 vs 边缘 | 边缘 = 对其他变量求和/积分"消掉" |
| 独立 vs 条件独立 | 边际独立不等于给定某条件下仍独立 |
| 频率 vs 概率 | 频率是观测值,概率是理论极限 |
9. 一句话记忆
概率论在机器学习里就是:用概率描述不确定性,用条件与贝叶斯做推断,用期望与方差刻画分布。