深度学习之概率论

概率论

核心目标：掌握机器学习处理不确定性时的基本语言------概率、随机变量、条件推断与数字特征。

机器学习本质是在不确定性下做预测，概率论提供了描述和推理不确定性的框架。

1. 概率基本概念

1.1 随机试验

随机试验需满足三个条件：

条件	含义
可重复（Replicable）	可在相同条件下重复进行
结果已知（Known Outcomes）	所有可能结果事先可知
不确定性（Uncertainty）	单次试验前，具体结果不确定

1.2 样本空间与事件

样本空间 SSS：所有可能结果的集合。如掷骰子 S={1,2,3,4,5,6}S = \{1,2,3,4,5,6\}S={1,2,3,4,5,6}
事件（随机事件）：样本空间的子集。如"掷出偶数" ={2,4,6}= \{2,4,6\}={2,4,6}

1.3 频率与概率

概念	含义
频率	某事件在重复试验中出现的比例（已发生）
概率	事件发生可能性的数值刻画，0≤P(A)≤10 \le P(A) \le 10≤P(A)≤1

实验次数足够多时，频率会稳定到概率附近（大数定律直觉）。

概率公理：

非负性 ：P(A)≥0P(A) \ge 0P(A)≥0
规范性 ：P(S)=1P(S) = 1P(S)=1
可列可加性 ：若 AAA 与 BBB 互斥，则 P(A∪B)=P(A)+P(B)P(A \cup B) = P(A) + P(B)P(A∪B)=P(A)+P(B)

1.4 示例：抛骰子与频率

python 复制代码

import torch
from torch.distributions import multinomial

# 公平骰子：每面概率 1/6
fair_probs = torch.ones(6) / 6

# 抛 1000 次，counts 记录每个面出现的次数
counts = multinomial.Multinomial(1000, fair_probs).sample()
print(counts)

# 频率 ≈ 概率
print(counts / 1000)   # 接近 [1/6, ..., 1/6]

2. 随机变量

随机变量 （Random Variable）本质是一个映射函数：把样本空间中的结果映射到实数。

要点	说明
"随机"	事件发生前，取值不确定
"变量"	取值随试验结果而变化
记号	通常用大写字母：XXX、YYY、ZZZ

抛硬币示例：

样本空间：S={H,T}S = \{H, T\}S={H,T}
定义 XXX：H→1H \to 1H→1，T→0T \to 0T→0
XXX 是映射规则，不是某一次具体结果；抛掷前 XXX 可能是 0 或 1，结果发生后 XXX 确定

按取值类型分类：

类型	特点	例子
离散	取值可数	骰子点数、类别标签
连续	取值连续	身高、体重、像素值

3. 联合、条件与边缘概率

给定随机变量 AAA、BBB：

概念	记号	含义
联合概率	P(A=a,B=b)P(A=a, B=b)P(A=a,B=b)	两件事同时发生
条件概率	P(B=b∣A=a)P(B=b \mid A=a)P(B=b∣A=a)	已知 AAA 发生时，BBB 发生的概率
边缘概率	P(B)P(B)P(B)	忽略其他变量，BBB 发生的总概率

3.1 条件概率

P(B∣A)=P(A,B)P(A)(P(A)>0) P(B \mid A) = \frac{P(A, B)}{P(A)} \quad (P(A) > 0) P(B∣A)=P(A)P(A,B)(P(A)>0)

3.2 边缘概率

P(B)=∑AP(A,B) P(B) = \sum_A P(A, B) P(B)=A∑P(A,B)

边缘概率 = 把其他变量的所有可能性加总掉，得到单个变量的分布。

名称来源：联合分布用表格表示时，按行或列加总的结果写在表格边缘。

3.3 示例：台风与下雨

变量	含义
TTT	是否有台风（1=有，0=无）
RRR	是否下雨（1=下，0=不下）

已知：

P(T=1)=0.2P(T=1) = 0.2P(T=1)=0.2，P(T=0)=0.8P(T=0) = 0.8P(T=0)=0.8
P(R=1∣T=1)=0.9P(R=1 \mid T=1) = 0.9P(R=1∣T=1)=0.9，P(R=1∣T=0)=0.2P(R=1 \mid T=0) = 0.2P(R=1∣T=0)=0.2

问题：今天下雨的总概率 P(R=1)P(R=1)P(R=1) 是多少？

P(R=1)=P(R=1,T=1)+P(R=1,T=0)=P(T=1)⋅P(R=1∣T=1)+P(T=0)⋅P(R=1∣T=0)=0.2×0.9+0.8×0.2=0.34 \begin{align} P(R=1) &= P(R=1, T=1) + P(R=1, T=0) \\ &= P(T=1) \cdot P(R=1 \mid T=1) + P(T=0) \cdot P(R=1 \mid T=0) \\ &= 0.2 \times 0.9 + 0.8 \times 0.2 \\ &= 0.34 \end{align} P(R=1)=P(R=1,T=1)+P(R=1,T=0)=P(T=1)⋅P(R=1∣T=1)+P(T=0)⋅P(R=1∣T=0)=0.2×0.9+0.8×0.2=0.34

联合分布表：

P(雨,台风)P(\text{雨}, \text{台风})P(雨,台风)	有台风 (T=1T=1T=1)	没台风 (T=0T=0T=0)	行加总（雨的边际）
下雨 (R=1R=1R=1)	0.18	0.16	0.34
没下雨 (R=0R=0R=0)	0.02	0.64	0.66
列加总（台风的边际）	0.20	0.80	1.00

一句话：边缘概率 = 当你忽略或不知道某些因素时，某事件发生的总概率。

4. 全概率公式与贝叶斯定理

4.1 全概率公式

若 B1,B2,...,BnB_1, B_2, \dots, B_nB1,B2,...,Bn 构成样本空间 SSS 的一个划分（互斥且穷尽），则：

P(A)=∑i=1nP(A∣Bi)⋅P(Bi) P(A) = \sum_{i=1}^{n} P(A \mid B_i) \cdot P(B_i) P(A)=i=1∑nP(A∣Bi)⋅P(Bi)

4.2 贝叶斯公式

P(Bi∣A)=P(A∣Bi)⋅P(Bi)P(A)=P(A∣Bi)⋅P(Bi)∑j=1nP(A∣Bj)⋅P(Bj) P(B_i \mid A) = \frac{P(A \mid B_i) \cdot P(B_i)}{P(A)} = \frac{P(A \mid B_i) \cdot P(B_i)}{\sum_{j=1}^{n} P(A \mid B_j) \cdot P(B_j)} P(Bi∣A)=P(A)P(A∣Bi)⋅P(Bi)=∑j=1nP(A∣Bj)⋅P(Bj)P(A∣Bi)⋅P(Bi)

术语	符号	含义
先验	P(Bi)P(B_i)P(Bi)	看到证据前的初始判断
似然度	P(A∣Bi)P(A \mid B_i)P(A∣Bi)	若原因 BiB_iBi 成立，证据 AAA 出现的可能性
证据/边际	P(A)P(A)P(A)	证据发生的总概率（全概率公式）
后验	P(Bi∣A)P(B_i \mid A)P(Bi∣A)	看到证据后，对原因 BiB_iBi 的更新判断

两种问法：

概率论常问：已知原因，结果发生的概率？→ P(A∣Bi)P(A \mid B_i)P(A∣Bi)
贝叶斯问：已知结果，原因是某个的概率？→ P(Bi∣A)P(B_i \mid A)P(Bi∣A)

核心思想：根据新证据更新旧看法。常用于医疗检测、故障诊断、垃圾邮件分类等。

4.3 示例 1：两盒抽球

盒子 A：3 红 1 白，P(红∣A)=0.75P(\text{红} \mid A) = 0.75P(红∣A)=0.75
盒子 B：1 红 3 白，P(红∣B)=0.25P(\text{红} \mid B) = 0.25P(红∣B)=0.25
随机选盒，抽到红球。求 P(A∣红)P(A \mid \text{红})P(A∣红)？

步骤	计算
先验	P(A)=P(B)=0.5P(A) = P(B) = 0.5P(A)=P(B)=0.5
似然	P(红∣A)=0.75P(\text{红} \mid A) = 0.75P(红∣A)=0.75，P(红∣B)=0.25P(\text{红} \mid B) = 0.25P(红∣B)=0.25
证据	P(红)=0.75×0.5+0.25×0.5=0.5P(\text{红}) = 0.75 \times 0.5 + 0.25 \times 0.5 = 0.5P(红)=0.75×0.5+0.25×0.5=0.5
后验	P(A∣红)=0.75×0.50.5=0.75P(A \mid \text{红}) = \dfrac{0.75 \times 0.5}{0.5} = 0.75P(A∣红)=0.50.75×0.5=0.75

观察到红球后，"来自盒子 A"的概率从 0.5 更新到 0.75。

4.4 示例 2：医疗检测（反直觉）

参数	值
患病率（先验）	P(H=1)=0.0015P(H=1) = 0.0015P(H=1)=0.0015
检测灵敏度	P(D=1∣H=1)=1P(D=1 \mid H=1) = 1P(D=1∣H=1)=1（患病必检出）
假阳性率	P(D=1∣H=0)=0.01P(D=1 \mid H=0) = 0.01P(D=1∣H=0)=0.01

检测为阳性的总概率：

P(D=1)=1×0.0015+0.01×0.9985=0.011485 P(D=1) = 1 \times 0.0015 + 0.01 \times 0.9985 = 0.011485 P(D=1)=1×0.0015+0.01×0.9985=0.011485

真正患病的后验概率：

P(H=1∣D=1)=1×0.00150.011485≈0.1306 P(H=1 \mid D=1) = \frac{1 \times 0.0015}{0.011485} \approx 0.1306 P(H=1∣D=1)=0.0114851×0.0015≈0.1306

测出阳性，真正患病的概率只有 13.06%。

原因：患病率极低时，健康人基数很大，即使假阳性率只有 1%，也会产生大量假阳性。单次阳性不足以断定患病，稀有事件背景下概率常违反直觉。

注意：P(D=1∣H=1)=1P(D=1 \mid H=1) = 1P(D=1∣H=1)=1 与 P(H=1∣D=1)≈0.13P(H=1 \mid D=1) \approx 0.13P(H=1∣D=1)≈0.13 并不矛盾------前者是"患病时检出"，后者是"检出时患病"。

5. 独立性

5.1 独立

若 AAA 与 BBB 独立，则：

P(A,B)=P(A)⋅P(B) P(A, B) = P(A) \cdot P(B) P(A,B)=P(A)⋅P(B)

知道 AAA 是否发生，不改变 BBB 发生的概率。

5.2 条件独立

给定 CCC，若 AAA 与 BBB 条件独立：

P(A,B∣C)=P(A∣C)⋅P(B∣C) P(A, B \mid C) = P(A \mid C) \cdot P(B \mid C) P(A,B∣C)=P(A∣C)⋅P(B∣C)

在已知 CCC 的前提下，AAA 与 BBB 互不影响。图模型、朴素贝叶斯分类器中常见。

6. 期望与方差

数字特征	含义
期望 E(X)E(X)E(X)	随机变量的"中心"（平均值）
方差 D(X)D(X)D(X) / Var(X)\mathrm{Var}(X)Var(X)	随机变量围绕中心的"波动"
标准差 σ(X)\sigma(X)σ(X)	方差的算术平方根

6.1 离散型

E(X)=∑kxkpk E(X) = \sum_k x_k p_k E(X)=k∑xkpk

D(X)=∑k $xk-E(X)$ 2pk D(X) = \sum_k $x_k - E(X)$ ^2 p_k D(X)=k∑ $xk-E(X)$ 2pk

6.2 连续型

E(X)=∫−∞∞x f(x) dx E(X) = \int_{-\infty}^{\infty} x \, f(x) \, dx E(X)=∫−∞∞xf(x)dx

D(X)=∫−∞∞ $x-E(X)$ 2f(x) dx D(X) = \int_{-\infty}^{\infty} $x - E(X)$ ^2 f(x) \, dx D(X)=∫−∞∞ $x-E(X)$ 2f(x)dx

6.3 方差的等价形式

Var(X)=E $(X−E\[X$ )2]=E(X2)− $E(X)$ 2 \mathrm{Var}(X) = E\left $(X - E\[X$ )^2\right] = E(X^2) - $E(X)$ ^2 Var(X)=E $(X−E\[X$ )2]=E(X2)− $E(X)$ 2

σ(X)=D(X) \sigma(X) = \sqrt{D(X)} σ(X)=D(X)

7. 概念关系速览

#mermaid-svg-5QK4jxH4PilbZwXj{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-5QK4jxH4PilbZwXj .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-5QK4jxH4PilbZwXj .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-5QK4jxH4PilbZwXj .error-icon{fill:#552222;}#mermaid-svg-5QK4jxH4PilbZwXj .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-5QK4jxH4PilbZwXj .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-5QK4jxH4PilbZwXj .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-5QK4jxH4PilbZwXj .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-5QK4jxH4PilbZwXj .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-5QK4jxH4PilbZwXj .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-5QK4jxH4PilbZwXj .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-5QK4jxH4PilbZwXj .marker{fill:#333333;stroke:#333333;}#mermaid-svg-5QK4jxH4PilbZwXj .marker.cross{stroke:#333333;}#mermaid-svg-5QK4jxH4PilbZwXj svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-5QK4jxH4PilbZwXj p{margin:0;}#mermaid-svg-5QK4jxH4PilbZwXj .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-5QK4jxH4PilbZwXj .cluster-label text{fill:#333;}#mermaid-svg-5QK4jxH4PilbZwXj .cluster-label span{color:#333;}#mermaid-svg-5QK4jxH4PilbZwXj .cluster-label span p{background-color:transparent;}#mermaid-svg-5QK4jxH4PilbZwXj .label text,#mermaid-svg-5QK4jxH4PilbZwXj span{fill:#333;color:#333;}#mermaid-svg-5QK4jxH4PilbZwXj .node rect,#mermaid-svg-5QK4jxH4PilbZwXj .node circle,#mermaid-svg-5QK4jxH4PilbZwXj .node ellipse,#mermaid-svg-5QK4jxH4PilbZwXj .node polygon,#mermaid-svg-5QK4jxH4PilbZwXj .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-5QK4jxH4PilbZwXj .rough-node .label text,#mermaid-svg-5QK4jxH4PilbZwXj .node .label text,#mermaid-svg-5QK4jxH4PilbZwXj .image-shape .label,#mermaid-svg-5QK4jxH4PilbZwXj .icon-shape .label{text-anchor:middle;}#mermaid-svg-5QK4jxH4PilbZwXj .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-5QK4jxH4PilbZwXj .rough-node .label,#mermaid-svg-5QK4jxH4PilbZwXj .node .label,#mermaid-svg-5QK4jxH4PilbZwXj .image-shape .label,#mermaid-svg-5QK4jxH4PilbZwXj .icon-shape .label{text-align:center;}#mermaid-svg-5QK4jxH4PilbZwXj .node.clickable{cursor:pointer;}#mermaid-svg-5QK4jxH4PilbZwXj .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-5QK4jxH4PilbZwXj .arrowheadPath{fill:#333333;}#mermaid-svg-5QK4jxH4PilbZwXj .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-5QK4jxH4PilbZwXj .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-5QK4jxH4PilbZwXj .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-5QK4jxH4PilbZwXj .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-5QK4jxH4PilbZwXj .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-5QK4jxH4PilbZwXj .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-5QK4jxH4PilbZwXj .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-5QK4jxH4PilbZwXj .cluster text{fill:#333;}#mermaid-svg-5QK4jxH4PilbZwXj .cluster span{color:#333;}#mermaid-svg-5QK4jxH4PilbZwXj div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-5QK4jxH4PilbZwXj .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-5QK4jxH4PilbZwXj rect.text{fill:none;stroke-width:0;}#mermaid-svg-5QK4jxH4PilbZwXj .icon-shape,#mermaid-svg-5QK4jxH4PilbZwXj .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-5QK4jxH4PilbZwXj .icon-shape p,#mermaid-svg-5QK4jxH4PilbZwXj .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-5QK4jxH4PilbZwXj .icon-shape .label rect,#mermaid-svg-5QK4jxH4PilbZwXj .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-5QK4jxH4PilbZwXj .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-5QK4jxH4PilbZwXj .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-5QK4jxH4PilbZwXj :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 数字特征
概率推断
多变量概率
基础概念
大数定律
随机试验
样本空间 S
事件
随机变量
联合概率
条件概率
边缘概率
独立性
全概率公式
贝叶斯公式
期望与方差
频率
概率

说明：

基础概念：试验产生样本空间，事件是其子集，随机变量是其到实数的映射
多变量概率：联合概率可分解为条件概率与边缘概率；独立时联合 = 边际之积
概率推断 ：全概率把 P(A)P(A)P(A) 按原因展开；贝叶斯由全概率 + 条件概率反推原因
频率 → 概率：重复试验的频率在大数定律下逼近概率

8. 易错点速查

易错点	正确理解
混淆 P(A∣B)P(A \mid B)P(A∣B) 与 P(B∣A)P(B \mid A)P(B∣A)	条件方向不同，数值一般不等
把高灵敏度当成高后验	稀有疾病下，阳性后验仍可能很低
联合 vs 边缘	边缘 = 对其他变量求和/积分"消掉"
独立 vs 条件独立	边际独立不等于给定某条件下仍独立
频率 vs 概率	频率是观测值，概率是理论极限

9. 一句话记忆

概率论在机器学习里就是：用概率描述不确定性，用条件与贝叶斯做推断，用期望与方差刻画分布。