机器学习概率论与统计学--(1)概率论基础

欢迎来到概率论的世界！无论你是刚接触这门学科，还是想巩固基础，这篇文章都会用最直观的方式带你理解核心概念。我们将从最基础的样本空间开始，一步步深入到贝叶斯定理和机器学习中的应用。准备好了吗？让我们开始吧！

1. 样本空间与事件

1.1 基本概念

样本空间 是一个随机试验所有可能结果的集合，通常用大写字母 Ω\OmegaΩ 或 SSS 表示。每个可能的结果称为一个样本点 ，用 ω\omegaω 表示。

例子：掷一枚骰子，观察向上的点数。样本空间 Ω={1,2,3,4,5,6}\Omega = \{1,2,3,4,5,6\}Ω={1,2,3,4,5,6}。每个数字就是一个样本点。

事件是样本空间的一个子集，即某些样本点的集合。事件通常用大写字母 A,B,CA, B, CA,B,C 表示。如果试验的结果落在事件里，我们就说该事件发生了。

例子：在掷骰子中，事件 A=A =A= "点数为偶数" = {2,4,6}\{2,4,6\}{2,4,6}。如果掷出 4，则事件 AAA 发生。

1.2 事件的运算

就像集合一样，事件之间可以进行运算，帮助我们描述更复杂的情况。

并集 A∪BA \cup BA∪B：事件 AAA 或事件 BBB 至少发生一个。即结果属于 AAA 或属于 BBB。
交集 A∩BA \cap BA∩B：事件 AAA 和事件 BBB 同时发生。即结果既属于 AAA 又属于 BBB。
补集 AcA^cAc 或 Aˉ\bar{A}Aˉ：事件 AAA 不发生。即结果不属于 AAA。

用文氏图可以很直观地理解这些运算。想象一个矩形代表样本空间，里面两个圆圈分别代表事件 AAA 和 BBB：

并集就是两个圆圈覆盖的所有区域。
交集是两个圆圈重叠的部分。
补集是矩形中圆圈外面的部分。

例子：掷骰子，设 A={1,2,3}A = \{1,2,3\}A={1,2,3}，B={3,4,5}B = \{3,4,5\}B={3,4,5}。

A∪B={1,2,3,4,5}A \cup B = \{1,2,3,4,5\}A∪B={1,2,3,4,5}

A∩B={3}A \cap B = \{3\}A∩B={3}

Ac={4,5,6}A^c = \{4,5,6\}Ac={4,5,6}

2. 概率的定义

概率是衡量事件发生可能性大小的数值，通常记作 P(A)P(A)P(A)，取值范围在 0 到 1 之间。概率的定义有多种角度，初学者可以先从最直观的入手。

2.1 古典概型

如果试验只有有限个可能结果，且每个结果发生的可能性相同，那么事件 AAA 的概率为：
P(A)=事件 A 包含的样本点数样本空间中的样本点总数 P(A) = \frac{\text{事件 } A \text{ 包含的样本点数}}{\text{样本空间中的样本点总数}} P(A)=样本空间中的样本点总数事件 A 包含的样本点数

例子：掷一枚公平骰子，事件 A=A =A= "点数大于 4" = {5,6}\{5,6\}{5,6}，则 P(A)=26=13P(A) = \frac{2}{6} = \frac{1}{3}P(A)=62=31。

2.2 频率学派

在大量重复试验下，事件发生的频率会稳定在一个值附近，这个值就是概率。比如抛硬币无数次，正面朝上的频率会接近 1/2。

2.3 公理化定义

现代概率论基于柯尔莫哥洛夫提出的三条公理：

非负性：P(A)≥0P(A) \ge 0P(A)≥0。
规范性：P(Ω)=1P(\Omega) = 1P(Ω)=1。
可列可加性：若事件 A1,A2,...A_1, A_2, \dotsA1,A2,... 互不相交，则 P(⋃i=1∞Ai)=∑i=1∞P(Ai)P(\bigcup_{i=1}^\infty A_i) = \sum_{i=1}^\infty P(A_i)P(⋃i=1∞Ai)=∑i=1∞P(Ai)。

这些公理是所有概率计算的基础。

3. 条件概率

有时我们需要在已知某些信息的情况下，重新评估事件发生的可能性。这就引出了条件概率。

3.1 定义

给定事件 BBB 发生的条件下，事件 AAA 发生的概率记为 P(A∣B)P(A|B)P(A∣B)，定义为：
P(A∣B)=P(A∩B)P(B),假设 P(B)>0 P(A|B) = \frac{P(A \cap B)}{P(B)}, \quad \text{假设 } P(B) > 0 P(A∣B)=P(B)P(A∩B),假设 P(B)>0

直观上，条件概率将样本空间缩小到了 BBB，然后看 AAA 在 BBB 中占的比例。

例子：某班 60% 的学生喜欢数学，40% 的学生喜欢物理，20% 的学生两者都喜欢。随机选一名学生，已知他喜欢数学，问他喜欢物理的概率是多少？

设 MMM = 喜欢数学，PPP = 喜欢物理。则 P(P∣M)=P(P∩M)P(M)=0.20.6=13P(P|M) = \frac{P(P \cap M)}{P(M)} = \frac{0.2}{0.6} = \frac{1}{3}P(P∣M)=P(M)P(P∩M)=0.60.2=31。

3.2 乘法公式

由条件概率定义可以直接得到乘法公式：
P(A∩B)=P(B)⋅P(A∣B)=P(A)⋅P(B∣A) P(A \cap B) = P(B) \cdot P(A|B) = P(A) \cdot P(B|A) P(A∩B)=P(B)⋅P(A∣B)=P(A)⋅P(B∣A)

这个公式在计算多个事件同时发生的概率时非常有用，可以推广到更多事件：
P(A1∩A2∩⋯∩An)=P(A1)⋅P(A2∣A1)⋅P(A3∣A1∩A2)⋯P(An∣A1∩⋯∩An−1) P(A_1 \cap A_2 \cap \cdots \cap A_n) = P(A_1) \cdot P(A_2|A_1) \cdot P(A_3|A_1\cap A_2) \cdots P(A_n|A_1\cap\cdots\cap A_{n-1}) P(A1∩A2∩⋯∩An)=P(A1)⋅P(A2∣A1)⋅P(A3∣A1∩A2)⋯P(An∣A1∩⋯∩An−1)

4. 全概率公式与贝叶斯定理

这两个公式是概率论中的"黄金搭档"，它们帮助我们处理由"原因"推"结果"以及由"结果"推"原因"的问题。

4.1 全概率公式

假设样本空间 Ω\OmegaΩ 被划分成若干个互不相交的事件 B1,B2,...,BnB_1, B_2, \dots, B_nB1,B2,...,Bn（即它们两两互斥，且并集为整个样本空间），那么对于任意事件 AAA，有：
P(A)=∑i=1nP(Bi)⋅P(A∣Bi) P(A) = \sum_{i=1}^n P(B_i) \cdot P(A|B_i) P(A)=i=1∑nP(Bi)⋅P(A∣Bi)

推导过程：

设事件组 B1,B2,...,BnB_1, B_2, \ldots, B_nB1,B2,...,Bn 是样本空间 Ω\OmegaΩ 的一个划分，即满足：

Bi∩Bj=∅ (i≠j)B_i \cap B_j = \varnothing \ (i \neq j)Bi∩Bj=∅ (i=j)，互不相容；

⋃i=1nBi=Ω\bigcup_{i=1}^n B_i = \Omega⋃i=1nBi=Ω，完备。

对于任意事件 (A)，有：
A=A∩Ω=A∩(⋃i=1nBi)=⋃i=1n(A∩Bi) A = A \cap \Omega = A \cap \left( \bigcup_{i=1}^n B_i \right) = \bigcup_{i=1}^n (A \cap B_i) A=A∩Ω=A∩(i=1⋃nBi)=i=1⋃n(A∩Bi)

由于 BiB_iBi 互不相容，则 A∩BiA \cap B_iA∩Bi 也互不相容，因此由概率的可加性得：
P(A)=∑i=1nP(A∩Bi) P(A) = \sum_{i=1}^n P(A \cap B_i) P(A)=i=1∑nP(A∩Bi)

再根据条件概率的定义 P(A∩Bi)=P(Bi)⋅P(A∣Bi)P(A \cap B_i) = P(B_i) \cdot P(A \mid B_i)P(A∩Bi)=P(Bi)⋅P(A∣Bi)，代入即得：
P(A)=∑i=1nP(Bi)⋅P(A∣Bi) P(A) = \sum_{i=1}^n P(B_i) \cdot P(A \mid B_i) P(A)=i=1∑nP(Bi)⋅P(A∣Bi)

这个公式的意义是：事件 AAA 的总概率等于它在每个"原因" BiB_iBi 下发生的条件概率的加权平均，权重就是各个原因发生的概率。

例子：有两个盒子，一号盒有 3 个红球 2 个蓝球，二号盒有 4 个红球 1 个蓝球。随机选一个盒子（等可能），然后从该盒中随机取一球。求取出红球的概率。

设 B1B_1B1 = 选一号盒，B2B_2B2 = 选二号盒，AAA = 取出红球。
P(A)=P(B1)P(A∣B1)+P(B2)P(A∣B2)=0.5×35+0.5×45=0.5×0.6+0.5×0.8=0.7P(A) = P(B_1)P(A|B_1) + P(B_2)P(A|B_2) = 0.5 \times \frac{3}{5} + 0.5 \times \frac{4}{5} = 0.5 \times 0.6 + 0.5 \times 0.8 = 0.7P(A)=P(B1)P(A∣B1)+P(B2)P(A∣B2)=0.5×53+0.5×54=0.5×0.6+0.5×0.8=0.7。

4.2 贝叶斯定理

贝叶斯定理可以看作条件概率的逆用：已知结果 AAA 发生了，要反推是由哪个"原因" BiB_iBi 引起的概率。公式如下：
P(Bi∣A)=P(Bi)⋅P(A∣Bi)P(A)=P(Bi)⋅P(A∣Bi)∑jP(Bj)P(A∣Bj) P(B_i|A) = \frac{P(B_i) \cdot P(A|B_i)}{P(A)} = \frac{P(B_i) \cdot P(A|B_i)}{\sum_{j} P(B_j) P(A|B_j)} P(Bi∣A)=P(A)P(Bi)⋅P(A∣Bi)=∑jP(Bj)P(A∣Bj)P(Bi)⋅P(A∣Bi)

其中：

P(Bi)P(B_i)P(Bi) 称为 先验概率，即在看到结果之前对原因的概率估计。
P(Bi∣A)P(B_i|A)P(Bi∣A) 称为 后验概率，即看到结果之后对原因概率的修正。
P(A∣Bi)P(A|B_i)P(A∣Bi) 是似然，即在原因 BiB_iBi 下结果 AAA 发生的可能性。

例子：接上例，如果取出的球是红球，问它来自一号盒的概率是多少？
P(B1∣A)=P(B1)P(A∣B1)P(A)=0.5×0.60.7=0.30.7≈0.4286P(B_1|A) = \frac{P(B_1)P(A|B_1)}{P(A)} = \frac{0.5 \times 0.6}{0.7} = \frac{0.3}{0.7} \approx 0.4286P(B1∣A)=P(A)P(B1)P(A∣B1)=0.70.5×0.6=0.70.3≈0.4286。

直观理解

贝叶斯定理的本质是更新信念：当我们获得新信息（结果 AAA 发生）时，我们根据这个信息调整对各个原因的相信程度。先验概率 P(Bi)P(B_i)P(Bi) 是我们的初始信念，似然 P(A∣Bi)P(A|B_i)P(A∣Bi) 衡量了原因对结果的解释能力，两者结合得到后验概率。

贝叶斯定理的机器学习意义

在机器学习中，贝叶斯定理是许多算法的核心思想，尤其在分类、推断和概率图模型中。例如：

朴素贝叶斯分类器：假设特征之间条件独立，利用贝叶斯定理计算给定特征下样本属于各类别的后验概率，从而实现分类。
贝叶斯推断：在参数估计中，将未知参数视为随机变量，利用先验分布和数据似然得到后验分布，从而进行统计推断。
贝叶斯优化：用于超参数调优，通过先验和观测结果不断更新后验，指导下一步采样。

可以说，贝叶斯定理提供了一种将先验知识与观测数据结合的框架，这在数据稀缺或需要不确定性量化时尤为重要。

5. 独立性

5.1 定义

两个事件 AAA 和 BBB 是独立的，如果其中一个发生不影响另一个发生的概率。数学上，定义为：
P(A∩B)=P(A)⋅P(B). P(A \cap B) = P(A) \cdot P(B). P(A∩B)=P(A)⋅P(B).

等价地，当 P(B)>0P(B) > 0P(B)>0 时，有 P(A∣B)=P(A)P(A|B) = P(A)P(A∣B)=P(A)；当 P(A)>0P(A) > 0P(A)>0 时，有 P(B∣A)=P(B)P(B|A) = P(B)P(B∣A)=P(B)。

例子：掷一枚硬币两次，设 AAA = 第一次正面，BBB = 第二次正面。显然两次结果互不影响，所以 P(A∩B)=1/4=P(A)P(B)P(A \cap B) = 1/4 = P(A)P(B)P(A∩B)=1/4=P(A)P(B)，它们独立。

5.2 判断独立性的方法

根据定义直接验证 ：计算 P(A∩B)P(A \cap B)P(A∩B) 和 P(A)P(B)P(A)P(B)P(A)P(B)，看是否相等。这是最严格的方法。
利用背景知识或直观：如果两个事件显然没有物理联系，比如不同次试验的结果，通常可以认为独立。
注意互斥与独立的关系 ：如果 AAA 和 BBB 互斥（即不能同时发生），且概率都大于 0，则它们一定不独立，因为 P(A∩B)=0≠P(A)P(B)P(A \cap B) = 0 \neq P(A)P(B)P(A∩B)=0=P(A)P(B)。
多个事件的独立性：需要满足任意子集的乘积等于交集概率，但初学者通常先掌握两个事件的情况。

例子：从一副扑克牌中抽一张，AAA = 抽到红心，BBB = 抽到 A。P(A)=13/52=1/4P(A) = 13/52 = 1/4P(A)=13/52=1/4，P(B)=4/52=1/13P(B) = 4/52 = 1/13P(B)=4/52=1/13，P(A∩B)=1/52P(A \cap B) = 1/52P(A∩B)=1/52（红心A）。因为 1/52=(1/4)×(1/13)1/52 = (1/4) \times (1/13)1/52=(1/4)×(1/13)，所以独立？等等，实际上红心A确实满足这个等式，但这里要注意：事件"红心"和"A"确实是独立的吗？从一副牌中抽一张，抽到红心的概率是1/4，抽到A的概率是1/13，抽到红心A的概率是1/52，恰好乘积。所以它们是独立的。这个例子说明独立不一定需要物理分离，只要概率关系满足即可。