深度学习之概率论

概率论

核心目标:掌握机器学习处理不确定性时的基本语言------概率、随机变量、条件推断与数字特征。

机器学习本质是在不确定性下做预测,概率论提供了描述和推理不确定性的框架。


1. 概率基本概念

1.1 随机试验

随机试验需满足三个条件:

条件 含义
可重复(Replicable) 可在相同条件下重复进行
结果已知(Known Outcomes) 所有可能结果事先可知
不确定性(Uncertainty) 单次试验前,具体结果不确定

1.2 样本空间与事件

  • 样本空间 SSS:所有可能结果的集合。如掷骰子 S={1,2,3,4,5,6}S = \{1,2,3,4,5,6\}S={1,2,3,4,5,6}
  • 事件 (随机事件):样本空间的子集。如"掷出偶数" ={2,4,6}= \{2,4,6\}={2,4,6}

1.3 频率与概率

概念 含义
频率 某事件在重复试验中出现的比例(已发生)
概率 事件发生可能性的数值刻画,0≤P(A)≤10 \le P(A) \le 10≤P(A)≤1

实验次数足够多时,频率会稳定到概率附近(大数定律直觉)。

概率公理

  • 非负性 :P(A)≥0P(A) \ge 0P(A)≥0
  • 规范性 :P(S)=1P(S) = 1P(S)=1
  • 可列可加性 :若 AAA 与 BBB 互斥,则 P(A∪B)=P(A)+P(B)P(A \cup B) = P(A) + P(B)P(A∪B)=P(A)+P(B)

1.4 示例:抛骰子与频率

python 复制代码
import torch
from torch.distributions import multinomial

# 公平骰子:每面概率 1/6
fair_probs = torch.ones(6) / 6

# 抛 1000 次,counts 记录每个面出现的次数
counts = multinomial.Multinomial(1000, fair_probs).sample()
print(counts)

# 频率 ≈ 概率
print(counts / 1000)   # 接近 [1/6, ..., 1/6]

2. 随机变量

随机变量 (Random Variable)本质是一个映射函数:把样本空间中的结果映射到实数。

要点 说明
"随机" 事件发生前,取值不确定
"变量" 取值随试验结果而变化
记号 通常用大写字母:XXX、YYY、ZZZ

抛硬币示例

  • 样本空间:S={H,T}S = \{H, T\}S={H,T}
  • 定义 XXX:H→1H \to 1H→1,T→0T \to 0T→0
  • XXX 是映射规则,不是某一次具体结果;抛掷前 XXX 可能是 0 或 1,结果发生后 XXX 确定

按取值类型分类

类型 特点 例子
离散 取值可数 骰子点数、类别标签
连续 取值连续 身高、体重、像素值

3. 联合、条件与边缘概率

给定随机变量 AAA、BBB:

概念 记号 含义
联合概率 P(A=a,B=b)P(A=a, B=b)P(A=a,B=b) 两件事同时发生
条件概率 P(B=b∣A=a)P(B=b \mid A=a)P(B=b∣A=a) 已知 AAA 发生时,BBB 发生的概率
边缘概率 P(B)P(B)P(B) 忽略其他变量,BBB 发生的总概率

3.1 条件概率

P(B∣A)=P(A,B)P(A)(P(A)>0) P(B \mid A) = \frac{P(A, B)}{P(A)} \quad (P(A) > 0) P(B∣A)=P(A)P(A,B)(P(A)>0)

3.2 边缘概率

P(B)=∑AP(A,B) P(B) = \sum_A P(A, B) P(B)=A∑P(A,B)

边缘概率 = 把其他变量的所有可能性加总掉,得到单个变量的分布。

名称来源:联合分布用表格表示时,按行或列加总的结果写在表格边缘

3.3 示例:台风与下雨

变量 含义
TTT 是否有台风(1=有,0=无)
RRR 是否下雨(1=下,0=不下)

已知:

  • P(T=1)=0.2P(T=1) = 0.2P(T=1)=0.2,P(T=0)=0.8P(T=0) = 0.8P(T=0)=0.8
  • P(R=1∣T=1)=0.9P(R=1 \mid T=1) = 0.9P(R=1∣T=1)=0.9,P(R=1∣T=0)=0.2P(R=1 \mid T=0) = 0.2P(R=1∣T=0)=0.2

问题 :今天下雨的总概率 P(R=1)P(R=1)P(R=1) 是多少?

P(R=1)=P(R=1,T=1)+P(R=1,T=0)=P(T=1)⋅P(R=1∣T=1)+P(T=0)⋅P(R=1∣T=0)=0.2×0.9+0.8×0.2=0.34 \begin{align} P(R=1) &= P(R=1, T=1) + P(R=1, T=0) \\ &= P(T=1) \cdot P(R=1 \mid T=1) + P(T=0) \cdot P(R=1 \mid T=0) \\ &= 0.2 \times 0.9 + 0.8 \times 0.2 \\ &= 0.34 \end{align} P(R=1)=P(R=1,T=1)+P(R=1,T=0)=P(T=1)⋅P(R=1∣T=1)+P(T=0)⋅P(R=1∣T=0)=0.2×0.9+0.8×0.2=0.34

联合分布表

P(雨,台风)P(\text{雨}, \text{台风})P(雨,台风) 有台风 (T=1T=1T=1) 没台风 (T=0T=0T=0) 行加总(雨的边际)
下雨 (R=1R=1R=1) 0.18 0.16 0.34
没下雨 (R=0R=0R=0) 0.02 0.64 0.66
列加总(台风的边际) 0.20 0.80 1.00

一句话:边缘概率 = 当你忽略或不知道某些因素时,某事件发生的总概率。


4. 全概率公式与贝叶斯定理

4.1 全概率公式

若 B1,B2,...,BnB_1, B_2, \dots, B_nB1,B2,...,Bn 构成样本空间 SSS 的一个划分(互斥且穷尽),则:

P(A)=∑i=1nP(A∣Bi)⋅P(Bi) P(A) = \sum_{i=1}^{n} P(A \mid B_i) \cdot P(B_i) P(A)=i=1∑nP(A∣Bi)⋅P(Bi)

4.2 贝叶斯公式

P(Bi∣A)=P(A∣Bi)⋅P(Bi)P(A)=P(A∣Bi)⋅P(Bi)∑j=1nP(A∣Bj)⋅P(Bj) P(B_i \mid A) = \frac{P(A \mid B_i) \cdot P(B_i)}{P(A)} = \frac{P(A \mid B_i) \cdot P(B_i)}{\sum_{j=1}^{n} P(A \mid B_j) \cdot P(B_j)} P(Bi∣A)=P(A)P(A∣Bi)⋅P(Bi)=∑j=1nP(A∣Bj)⋅P(Bj)P(A∣Bi)⋅P(Bi)

术语 符号 含义
先验 P(Bi)P(B_i)P(Bi) 看到证据前的初始判断
似然度 P(A∣Bi)P(A \mid B_i)P(A∣Bi) 若原因 BiB_iBi 成立,证据 AAA 出现的可能性
证据/边际 P(A)P(A)P(A) 证据发生的总概率(全概率公式)
后验 P(Bi∣A)P(B_i \mid A)P(Bi∣A) 看到证据后,对原因 BiB_iBi 的更新判断

两种问法

  • 概率论常问:已知原因,结果发生的概率?→ P(A∣Bi)P(A \mid B_i)P(A∣Bi)
  • 贝叶斯问:已知结果,原因是某个的概率?→ P(Bi∣A)P(B_i \mid A)P(Bi∣A)

核心思想:根据新证据更新旧看法。常用于医疗检测、故障诊断、垃圾邮件分类等。

4.3 示例 1:两盒抽球

  • 盒子 A:3 红 1 白,P(红∣A)=0.75P(\text{红} \mid A) = 0.75P(红∣A)=0.75
  • 盒子 B:1 红 3 白,P(红∣B)=0.25P(\text{红} \mid B) = 0.25P(红∣B)=0.25
  • 随机选盒,抽到红球。求 P(A∣红)P(A \mid \text{红})P(A∣红)?
步骤 计算
先验 P(A)=P(B)=0.5P(A) = P(B) = 0.5P(A)=P(B)=0.5
似然 P(红∣A)=0.75P(\text{红} \mid A) = 0.75P(红∣A)=0.75,P(红∣B)=0.25P(\text{红} \mid B) = 0.25P(红∣B)=0.25
证据 P(红)=0.75×0.5+0.25×0.5=0.5P(\text{红}) = 0.75 \times 0.5 + 0.25 \times 0.5 = 0.5P(红)=0.75×0.5+0.25×0.5=0.5
后验 P(A∣红)=0.75×0.50.5=0.75P(A \mid \text{红}) = \dfrac{0.75 \times 0.5}{0.5} = 0.75P(A∣红)=0.50.75×0.5=0.75

观察到红球后,"来自盒子 A"的概率从 0.5 更新到 0.75。

4.4 示例 2:医疗检测(反直觉)

参数
患病率(先验) P(H=1)=0.0015P(H=1) = 0.0015P(H=1)=0.0015
检测灵敏度 P(D=1∣H=1)=1P(D=1 \mid H=1) = 1P(D=1∣H=1)=1(患病必检出)
假阳性率 P(D=1∣H=0)=0.01P(D=1 \mid H=0) = 0.01P(D=1∣H=0)=0.01

检测为阳性的总概率

P(D=1)=1×0.0015+0.01×0.9985=0.011485 P(D=1) = 1 \times 0.0015 + 0.01 \times 0.9985 = 0.011485 P(D=1)=1×0.0015+0.01×0.9985=0.011485

真正患病的后验概率

P(H=1∣D=1)=1×0.00150.011485≈0.1306 P(H=1 \mid D=1) = \frac{1 \times 0.0015}{0.011485} \approx 0.1306 P(H=1∣D=1)=0.0114851×0.0015≈0.1306

测出阳性,真正患病的概率只有 13.06%

原因:患病率极低时,健康人基数很大,即使假阳性率只有 1%,也会产生大量假阳性。单次阳性不足以断定患病,稀有事件背景下概率常违反直觉。

注意:P(D=1∣H=1)=1P(D=1 \mid H=1) = 1P(D=1∣H=1)=1 与 P(H=1∣D=1)≈0.13P(H=1 \mid D=1) \approx 0.13P(H=1∣D=1)≈0.13 并不矛盾------前者是"患病时检出",后者是"检出时患病"。


5. 独立性

5.1 独立

若 AAA 与 BBB 独立,则:

P(A,B)=P(A)⋅P(B) P(A, B) = P(A) \cdot P(B) P(A,B)=P(A)⋅P(B)

知道 AAA 是否发生,不改变 BBB 发生的概率。

5.2 条件独立

给定 CCC,若 AAA 与 BBB 条件独立

P(A,B∣C)=P(A∣C)⋅P(B∣C) P(A, B \mid C) = P(A \mid C) \cdot P(B \mid C) P(A,B∣C)=P(A∣C)⋅P(B∣C)

在已知 CCC 的前提下,AAA 与 BBB 互不影响。图模型、朴素贝叶斯分类器中常见。


6. 期望与方差

数字特征 含义
期望 E(X)E(X)E(X) 随机变量的"中心"(平均值)
方差 D(X)D(X)D(X) / Var(X)\mathrm{Var}(X)Var(X) 随机变量围绕中心的"波动"
标准差 σ(X)\sigma(X)σ(X) 方差的算术平方根

6.1 离散型

E(X)=∑kxkpk E(X) = \sum_k x_k p_k E(X)=k∑xkpk

D(X)=∑kxk−E(X)2pk D(X) = \sum_k x_k - E(X)^2 p_k D(X)=k∑xk−E(X)2pk

6.2 连续型

E(X)=∫−∞∞x f(x) dx E(X) = \int_{-\infty}^{\infty} x \, f(x) \, dx E(X)=∫−∞∞xf(x)dx

D(X)=∫−∞∞x−E(X)2f(x) dx D(X) = \int_{-\infty}^{\infty} x - E(X)^2 f(x) \, dx D(X)=∫−∞∞x−E(X)2f(x)dx

6.3 方差的等价形式

Var(X)=E(X−E\[X)2]=E(X2)−E(X)2 \mathrm{Var}(X) = E\left(X - E\[X)^2\right] = E(X^2) - E(X)^2 Var(X)=E(X−E\[X)2]=E(X2)−E(X)2

σ(X)=D(X) \sigma(X) = \sqrt{D(X)} σ(X)=D(X)


7. 概念关系速览

#mermaid-svg-5QK4jxH4PilbZwXj{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-5QK4jxH4PilbZwXj .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-5QK4jxH4PilbZwXj .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-5QK4jxH4PilbZwXj .error-icon{fill:#552222;}#mermaid-svg-5QK4jxH4PilbZwXj .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-5QK4jxH4PilbZwXj .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-5QK4jxH4PilbZwXj .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-5QK4jxH4PilbZwXj .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-5QK4jxH4PilbZwXj .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-5QK4jxH4PilbZwXj .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-5QK4jxH4PilbZwXj .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-5QK4jxH4PilbZwXj .marker{fill:#333333;stroke:#333333;}#mermaid-svg-5QK4jxH4PilbZwXj .marker.cross{stroke:#333333;}#mermaid-svg-5QK4jxH4PilbZwXj svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-5QK4jxH4PilbZwXj p{margin:0;}#mermaid-svg-5QK4jxH4PilbZwXj .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-5QK4jxH4PilbZwXj .cluster-label text{fill:#333;}#mermaid-svg-5QK4jxH4PilbZwXj .cluster-label span{color:#333;}#mermaid-svg-5QK4jxH4PilbZwXj .cluster-label span p{background-color:transparent;}#mermaid-svg-5QK4jxH4PilbZwXj .label text,#mermaid-svg-5QK4jxH4PilbZwXj span{fill:#333;color:#333;}#mermaid-svg-5QK4jxH4PilbZwXj .node rect,#mermaid-svg-5QK4jxH4PilbZwXj .node circle,#mermaid-svg-5QK4jxH4PilbZwXj .node ellipse,#mermaid-svg-5QK4jxH4PilbZwXj .node polygon,#mermaid-svg-5QK4jxH4PilbZwXj .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-5QK4jxH4PilbZwXj .rough-node .label text,#mermaid-svg-5QK4jxH4PilbZwXj .node .label text,#mermaid-svg-5QK4jxH4PilbZwXj .image-shape .label,#mermaid-svg-5QK4jxH4PilbZwXj .icon-shape .label{text-anchor:middle;}#mermaid-svg-5QK4jxH4PilbZwXj .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-5QK4jxH4PilbZwXj .rough-node .label,#mermaid-svg-5QK4jxH4PilbZwXj .node .label,#mermaid-svg-5QK4jxH4PilbZwXj .image-shape .label,#mermaid-svg-5QK4jxH4PilbZwXj .icon-shape .label{text-align:center;}#mermaid-svg-5QK4jxH4PilbZwXj .node.clickable{cursor:pointer;}#mermaid-svg-5QK4jxH4PilbZwXj .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-5QK4jxH4PilbZwXj .arrowheadPath{fill:#333333;}#mermaid-svg-5QK4jxH4PilbZwXj .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-5QK4jxH4PilbZwXj .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-5QK4jxH4PilbZwXj .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-5QK4jxH4PilbZwXj .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-5QK4jxH4PilbZwXj .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-5QK4jxH4PilbZwXj .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-5QK4jxH4PilbZwXj .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-5QK4jxH4PilbZwXj .cluster text{fill:#333;}#mermaid-svg-5QK4jxH4PilbZwXj .cluster span{color:#333;}#mermaid-svg-5QK4jxH4PilbZwXj div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-5QK4jxH4PilbZwXj .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-5QK4jxH4PilbZwXj rect.text{fill:none;stroke-width:0;}#mermaid-svg-5QK4jxH4PilbZwXj .icon-shape,#mermaid-svg-5QK4jxH4PilbZwXj .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-5QK4jxH4PilbZwXj .icon-shape p,#mermaid-svg-5QK4jxH4PilbZwXj .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-5QK4jxH4PilbZwXj .icon-shape .label rect,#mermaid-svg-5QK4jxH4PilbZwXj .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-5QK4jxH4PilbZwXj .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-5QK4jxH4PilbZwXj .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-5QK4jxH4PilbZwXj :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 数字特征
概率推断
多变量概率
基础概念
大数定律
随机试验
样本空间 S
事件
随机变量
联合概率
条件概率
边缘概率
独立性
全概率公式
贝叶斯公式
期望与方差
频率
概率

说明:

  • 基础概念:试验产生样本空间,事件是其子集,随机变量是其到实数的映射
  • 多变量概率:联合概率可分解为条件概率与边缘概率;独立时联合 = 边际之积
  • 概率推断 :全概率把 P(A)P(A)P(A) 按原因展开;贝叶斯由全概率 + 条件概率反推原因
  • 频率 → 概率:重复试验的频率在大数定律下逼近概率

8. 易错点速查

易错点 正确理解
混淆 P(A∣B)P(A \mid B)P(A∣B) 与 P(B∣A)P(B \mid A)P(B∣A) 条件方向不同,数值一般不等
把高灵敏度当成高后验 稀有疾病下,阳性后验仍可能很低
联合 vs 边缘 边缘 = 对其他变量求和/积分"消掉"
独立 vs 条件独立 边际独立不等于给定某条件下仍独立
频率 vs 概率 频率是观测值,概率是理论极限

9. 一句话记忆

概率论在机器学习里就是:用概率描述不确定性,用条件与贝叶斯做推断,用期望与方差刻画分布。

相关推荐
SEO_juper2 小时前
2026 五大高毛利细分赛道:关键词挖掘、建站模板、内容布局完整方案
大数据·人工智能·seo·geo·谷歌优化·2026·毛利
澹锦汐2 小时前
轻量化低代码一周交付:国外支付渠道集成实战细节
人工智能
大霸王龙2 小时前
机器人维修工程师
人工智能·数据挖掘·机器人
SLD_Allen2 小时前
同花顺Skill广场,为金融AI实战注入新动能!
大数据·人工智能·金融
调试优选官2 小时前
2026上海生成式引擎优化公司业务:技术路线与服务能力图谱
大数据·人工智能·经验总结·技术分享·上海
劈星斩月3 小时前
机器学习、深度学习,向“人类大脑”抄作业
人工智能·深度学习·机器学习
珠***格3 小时前
四可装置核心技术:高精度采集、边缘计算、协议自适应
大数据·人工智能·分布式·能源·边缘计算
jbk33113 小时前
谷哥找同片助手:相同视频片段自动寻找匹配功能使用说明
人工智能·音视频·剪辑软件·剪映自动化软件