机器学习之概率论

文章目录

- 概率论基础：理解随机世界的语言
- 统计推断基础：用样本推断总体
- 概率统计在AI中的应用：智能的基石
- - 朴素贝叶斯分类器：简单高效的分类利器
  - 贝叶斯网络：复杂关系建模专家
  - [隐马尔可夫模型 (HMM)：序列数据分析大师](#隐马尔可夫模型 (HMM)：序列数据分析大师)
  - 蒙特卡洛方法：随机模拟的魔力
  - 模型评估：量化模型的优劣
- Python实战：使用SciPy和NumPy进行概率统计计算
- - 代码解释：
- 总结

你是否好奇，为何AI总在提及"可能""概率"？天气预报常说"明天降雨概率60%"，而非"明天肯定下雨"。这是因为现实世界充满了不确定性。而概率统计，正是AI用以驾驭这种不确定性并从中汲取智能的强大工具。

如果将线性代数和微积分视作AI的基础架构，那么概率统计就是赋予AI灵魂的"神经系统"。它使AI模型能够像人类一样思考、推理，即便在信息不完整、情况不明朗时，也能做出明智决策。就如同人类依靠经验和归纳认知世界，AI也需借助概率统计理解数据中的模式、预测未来并做出最优选择。现在，让我们系统梳理概率统计的基础知识及其在AI领域的核心应用。

概率论基础：理解随机世界的语言

概率论是概率统计的基石，它构建了一套严谨的数学框架，用于描述和分析随机现象。

随机事件和概率：可能性有多大？

随机试验：结果事先无法确定的实验，像抛硬币、掷骰子、测量股票价格等都属于此类。
样本空间 (Ω)：随机试验所有可能结果的集合。例如，抛一次硬币，样本空间就是 {正面，反面}。
事件：样本空间的子集，代表一组结果的集合。比如，掷骰子时"结果是偶数"这一事件，对应样本空间的子集 {2, 4, 6}。
概率 § ：衡量事件发生可能性的数值，取值范围在0到1之间。0表示事件不可能发生，1表示必然发生。概率需满足以下基本性质：
- 非负性：任何事件的概率都大于等于0。
- 规范性：样本空间（必然事件）的概率为1。
- 可列可加性：互不相容事件（不可能同时发生）并集的概率，等于各事件概率之和。

条件概率和贝叶斯公式：信息更新的利器

条件概率 (P(A|B)) ：在事件B已经发生的条件下，事件A发生的概率。公式为： P ( A ∣ B ) = P ( A ∩ B ) / P ( B ) P(A|B) = P(A ∩ B) / P(B) P(A∣B)=P(A∩B)/P(B)（其中 P ( B ) > 0 P(B) > 0 P(B)>0）。
贝叶斯公式 ：连接条件概率 P ( A ∣ B ) P(A|B) P(A∣B)和 P ( B ∣ A ) P(B|A) P(B∣A)的关键桥梁，是概率论的核心公式之一，即 P ( A ∣ B ) = [ P ( B ∣ A ) ∗ P ( A ) ] / P ( B ) P(A|B) = [P(B|A) * P(A)] / P(B) P(A∣B)=[P(B∣A)∗P(A)]/P(B)。这里， P ( A ) P(A) P(A)是先验概率，表示事件A在未观测到事件B之前发生的概率； P ( B ∣ A ) P(B|A) P(B∣A)是似然度，指在事件A发生的条件下，事件B发生的概率； P ( B ) P(B) P(B)是证据，表示事件B发生的总概率，可通过全概率公式 P ( B ) = Σ P ( B ∣ A i ) ∗ P ( A i ) P(B) = Σ P(B|Ai) * P(Ai) P(B)=ΣP(B∣Ai)∗P(Ai)计算，其中 {Ai} 构成样本空间的一个划分； P ( A ∣ B ) P(A|B) P(A∣B)则是后验概率，表示在观测到事件B之后，事件A发生的更新概率。贝叶斯公式的精髓在于信息更新，它指导我们依据新证据（事件B的发生）修正对事件A的原有认知（先验概率 P ( A ) P(A) P(A)），从而获得更准确的判断（后验概率 P ( A ∣ B ) P(A|B) P(A∣B)）。

随机变量及其分布：量化随机性

随机变量 (X) ：将随机试验结果数值化的函数，可分为离散型（如掷骰子的点数）和连续型（如人的身高）。
- 离散型随机变量：取值为有限个或可列个。
- 连续型随机变量：取值能充满一个区间。
概率分布 ：描述随机变量取值的概率规律。
- 离散型 ：通过概率质量函数 (PMF) P ( X = x ) P(X = x) P(X=x)，表示随机变量X取特定值x的概率。
- 连续型 ：由概率密度函数 (PDF) f ( x ) f(x) f(x)刻画，满足 ∫ f ( x ) d x = 1 ∫f(x)dx = 1 ∫f(x)dx=1，事件 a ≤ X ≤ b a ≤ X ≤ b a≤X≤b的概率为 P ( a ≤ X ≤ b ) = ∫ a b f ( x ) d x P(a ≤ X ≤ b) = ∫_{a}^{b} f(x)dx P(a≤X≤b)=∫abf(x)dx。需注意，PDF本身并非概率，但其积分表示概率。
常见分布 ：
- 均匀分布：在给定区间内，所有取值概率相等。
- 正态分布 (高斯分布)：自然界极为常见，许多随机现象近似服从该分布，如人的身高、体重、考试成绩等。其钟形曲线具有对称性，均值、中位数、众数相等。
- 指数分布：用于描述独立事件发生的时间间隔的概率分布，例如电子设备的寿命、排队等待时间。
- 伯努利分布 (0 - 1分布)：描述一次试验的两种可能结果（成功/失败）的概率。
- 二项分布：刻画n次独立重复伯努利试验中，成功次数的概率分布。
- 泊松分布：描述单位时间或空间内，稀有事件发生次数的概率分布，比如某段时间内网站的访问次数、某地区单位面积内的交通事故数。

期望、方差和协方差：随机变量的数字特征

期望 (E[X]) ：随机变量的平均取值，也叫均值。
- 离散型 ： E [ X ] = Σ x ∗ P ( X = x ) E[X] = Σ x * P(X = x) E[X]=Σx∗P(X=x)。
- 连续型 ： E [ X ] = ∫ x ∗ f ( x ) d x E[X] = ∫ x * f(x)dx E[X]=∫x∗f(x)dx。
方差 (Var(X)) ：衡量随机变量取值相对于期望的离散程度，方差越大，数据越分散，即 V a r ( X ) = E [ ( X − E [ X ] ) 2 ] = E [ X 2 ] − ( E [ X ] ) 2 Var(X) = E[(X - E[X])^2] = E[X^2] - (E[X])^2 Var(X)=E[(X−E[X])2]=E[X2]−(E[X])2。
标准差 (SD(X))：方差的平方根，与随机变量单位相同，更直观地反映数据离散程度。
协方差 (Cov(X, Y)) ：衡量两个随机变量X和Y的联合变化程度。正协方差表明X和Y同方向变化，负协方差则表示反方向变化， C o v ( X , Y ) = E [ ( X − E [ X ] ) ( Y − E [ Y ] ) ] Cov(X, Y) = E[(X - E[X])(Y - E[Y])] Cov(X,Y)=E[(X−E[X])(Y−E[Y])]。
相关系数 (ρ(X, Y)) ：标准化后的协方差，取值在[-1, 1]之间，更清晰地展示两个变量线性相关的强度和方向， ρ ( X , Y ) = C o v ( X , Y ) / ( S D ( X ) ∗ S D ( Y ) ) ρ(X, Y) = Cov(X, Y) / (SD(X) * SD(Y)) ρ(X,Y)=Cov(X,Y)/(SD(X)∗SD(Y))。

大数定律和中心极限定理：从样本看总体

大数定律：当试验次数足够多，样本均值会趋近于总体均值（期望）。这是频率学派概率思想的基石，也是统计推断的基础。
中心极限定理：无论总体分布如何，只要样本量足够大，样本均值的分布就近似服从正态分布。这是统计推断中进行假设检验和区间估计的重要理论依据。

统计推断基础：用样本推断总体

统计推断的任务是借助样本数据，推断总体的特征。

总体和样本：部分与整体

总体：研究对象的全体，例如所有用户、所有商品、所有图像等。
样本：从总体中随机抽取的一部分个体，用于代表总体。
统计量：样本的函数，如样本均值、样本方差，用于估计总体参数。

参数估计：猜测总体的秘密

参数估计 ：利用样本统计量估计总体参数（如总体均值、总体比例）的值。
- 点估计：用一个具体数值估计总体参数，例如用样本均值估计总体均值。
- 区间估计：给出参数的估计范围，并说明该范围包含总体参数的概率（置信度）。比如，95%置信区间意味着有95%的把握认为总体参数在这个区间内。

假设检验：判断猜想是否靠谱

假设检验 ：对总体参数提出一个假设（零假设），再依据样本信息判断是否有足够证据拒绝该假设。
- 步骤：
  - 提出假设 ：建立零假设 ( H 0 H_0 H0) 和备择假设 ( H 1 H_1 H1)。 H 0 H_0 H0通常是想要拒绝的假设， H 1 H_1 H1是想要支持的假设。
  - 选择检验统计量：根据问题选取合适的检验统计量，如t统计量、z统计量、卡方统计量等。
  - 确定显著性水平 (α)：预先设定的拒绝零假设的概率阈值，通常取0.05或0.01。
  - 计算p值 ：在零假设 H 0 H_0 H0为真的条件下，观察到样本统计量或更极端结果的概率。
  - 做出决策 ：若p值 ≤ α，则拒绝 H 0 H_0 H0，认为样本数据提供了足够证据支持备择假设 H 1 H_1 H1；否则，不拒绝 H 0 H_0 H0，但这并不意味着接受 H 0 H_0 H0，只是没有足够证据拒绝它。

概率统计在AI中的应用：智能的基石

概率统计是AI模型的基石，几乎所有AI算法都离不开概率统计的思想和方法。

朴素贝叶斯分类器：简单高效的分类利器

原理：基于贝叶斯公式和特征条件独立假设的分类算法，它假定在给定类别的情况下，各个特征相互独立。
优点：算法简单、易于实现，训练效率高，对小规模数据和高维数据效果良好，常用于文本分类、垃圾邮件过滤等领域。
缺点：特征条件独立假设在现实中往往难以成立，可能影响分类精度。

贝叶斯网络：复杂关系建模专家

原理：用有向无环图 (DAG) 表示变量之间的概率依赖关系，节点代表变量，有向边表示变量间的依赖关系。通过贝叶斯公式进行概率推理，可处理变量间的复杂依赖关系和不确定性推理。
优点：能够清晰呈现变量间的依赖关系，进行不确定性推理和预测，可处理缺失数据，具有良好的可解释性。
缺点：网络结构学习和参数学习较为复杂，计算复杂度较高。

隐马尔可夫模型 (HMM)：序列数据分析大师

原理：描述由隐状态序列和观测序列构成的双重随机过程的统计模型。隐状态不可观测，但可通过观测序列推断隐状态序列，并预测未来观测值。
应用：广泛应用于语音识别、自然语言处理、生物信息学、时间序列分析等领域。例如在语音识别中，隐状态可以是音素，观测序列可以是声音信号。

蒙特卡洛方法：随机模拟的魔力

原理：基于随机抽样的数值计算方法，通过大量随机模拟估计概率或计算积分。当问题难以直接求解时，蒙特卡洛方法提供了有效的近似解法。
应用：在强化学习（如蒙特卡洛树搜索）、金融建模、物理模拟、统计推断等领域应用广泛。例如，计算复杂积分时，可通过随机抽样估算积分值。

模型评估：量化模型的优劣

混淆矩阵：评估分类模型性能的常用工具，展示模型预测结果与真实标签的对应关系，有助于分析模型的分类错误类型。
ROC曲线：受试者工作特征曲线，以假阳性率 (FPR) 为横轴，真阳性率 (TPR) 为纵轴绘制。ROC曲线越靠近左上角，模型性能越好。
AUC值：ROC曲线下的面积 (Area Under Curve)，取值在[0, 1]之间。AUC值越大，模型整体性能越好。AUC = 0.5表示模型性能等同于随机猜测，AUC = 1表示完美模型。

Python实战：使用SciPy和NumPy进行概率统计计算

Python强大的科学计算库SciPy和NumPy提供了丰富的概率统计函数，便于进行各种概率分布的计算、统计分析和假设检验。

python 复制代码

import numpy as np
from scipy import stats
import matplotlib.pyplot as plt 

# 生成随机数
data = np.random.normal(loc=0, scale=1, size=1000)  
# 生成1000个服从标准正态分布的随机数

# 描述性统计
print("均值:", np.mean(data))
print("方差:", np.var(data))
print("标准差:", np.std(data))

# 概率密度函数 (PDF)
x = np.linspace(-5, 5, 100)
pdf = stats.norm.pdf(x, loc=0, scale=1)  
# 计算标准正态分布的PDF

# 累积分布函数 (CDF)
cdf = stats.norm.cdf(x, loc=0, scale=1)  
# 计算标准正态分布的CDF

# 分位数 (PPF)
q = stats.norm.ppf(0.95, loc=0, scale=1)  
# 计算标准正态分布的95%分位数
print("95%分位数:", q)

# 假设检验 (t检验)
t_statistic, p_value = stats.ttest_1samp(data, popmean=0)  
# 单样本t检验，检验data的均值是否为0
print("t统计量:", t_statistic)
print("p值:", p_value)
if p_value < 0.05:
    print("拒绝零假设，样本均值与0显著不同")
else:
    print("不拒绝零假设，没有足够证据表明样本均值与0不同")

# 二项分布
n = 10  
# 试验次数
p = 0.5  
# 成功概率
k = np.arange(0, n + 1)  
# 可能的成功次数
binom_pmf = stats.binom.pmf(k, n, p)  
# 计算二项分布的PMF
plt.figure() 
plt.plot(k, binom_pmf, 'bo-', label='Binomial PMF')
plt.title('Binomial Distribution (n=10, p=0.5)')
plt.xlabel('Number of Successes')
plt.ylabel('Probability')
plt.legend()
plt.show() 

# 泊松分布
mu = 2  
# 平均发生率
k = np.arange(0, 10)
poisson_pmf = stats.poisson.pmf(k, mu)  
# 计算泊松分布的PMF
plt.figure() 
plt.plot(k, poisson_pmf, 'ro-', label='Poisson PMF')
plt.title('Poisson Distribution (mu=2)')
plt.xlabel('Number of Events')
plt.ylabel('Probability')
plt.legend()
plt.show()

代码解释：

这段代码展示了如何使用NumPy和SciPy进行概率统计计算。

np.random.normal()：生成服从正态分布的随机数。
np.mean(), np.var(), np.std()：计算均值、方差和标准差等描述性统计量。
stats.norm.pdf(), stats.norm.cdf(), stats.norm.ppf()：分别计算正态分布的概率密度函数 (PDF)、累积分布函数 (CDF) 和分位数 (PPF)。
stats.ttest_1samp()：进行单样本t检验，用于检验样本均值是否与给定的总体均值存在显著差异。
stats.binom.pmf() 和 stats.poisson.pmf()：分别计算二项分布和泊松分布的概率质量函数 (PMF)。
matplotlib.pyplot：用于绘制二项分布和泊松分布的概率质量函数图像，以便更直观地理解概率分布。

运行这段代码，你将看到各种概率统计量的计算结果，以及二项分布和泊松分布的PMF图像。通过实践，能更深入地理解概率统计在Python中的应用。

总结

在本篇中，我们系统学习了概率论和统计推断的基础知识，并探讨了概率统计在AI中的核心应用，包括朴素贝叶斯、贝叶斯网络、隐马尔可夫模型、蒙特卡洛方法以及模型评估。