AI应用开发之概率论与贝叶斯定理

摘要： 概率论是人工智能的数学基石之一，从模型假设到参数估计，从贝叶斯推断到生成式AI，几乎所有AI技术都离不开概率论的支撑。本文系统梳理了AI开发中必备的概率论知识体系，涵盖随机变量与概率分布、期望与方差、贝叶斯定理、最大似然估计与最大后验估计、朴素贝叶斯分类器等核心概念，并配以完整的Python（NumPy）代码实现。通过垃圾邮件分类、贝叶斯优化等典型应用场景，帮助读者建立扎实的概率思维，为机器学习和深度学习奠定坚实的数学基础。

关键词： 概率论、贝叶斯定理、最大似然估计、朴素贝叶斯、概率分布、Python、数理统计

1. 引言

在人工智能领域，概率论扮演着"通用语言"的角色。无论是经典的机器学习算法，还是当前火热的生成式AI，其背后都有概率论的深层逻辑：

监督学习：本质上是在拟合 $P(Y\|X)$ （条件概率分布）；
无监督学习：如高斯混合模型（GMM），直接对数据的概率分布进行建模；
贝叶斯方法：将先验知识与观测数据结合，进行最优推断；
生成模型（GAN、VAE）：学习数据的联合分布 $P(X)$ ，从而具备"创造"新样本的能力。

本文将以"概念 + 公式 + NumPy代码 + 应用场景"四位一体的方式，带你完整掌握AI开发中的概率论核心知识。

2. 概率论基础

2.1 随机变量与概率分布

随机变量（Random Variable）是从随机事件的结果映射到数值的函数，分为离散型和连续型两类。

离散型随机变量 ：取值为有限个或可数无限个。描述其统计规律的函数称为概率质量函数（PMF），记作 $P(X=x)$ ，满足：

P(X=x) \\geq 0, \\quad \\sum_{x} P(X=x) = 1

连续型随机变量 ：取值为某区间内的所有实数。描述其统计规律的函数称为概率密度函数（PDF），记作 $f(x)$ ，满足：

f(x) \\geq 0, \\quad \\int_{-\\infty}\^{+\\infty} f(x) \\, dx = 1

注意：对于连续型随机变量， $P(X=x) = 0$ （单点概率为零），我们关心的是区间概率 $P(a \\leq X \\leq b) = \\int_a\^b f(x)\\,dx$ 。

下面用NumPy模拟不同类型随机变量的分布：

复制代码

import numpy as np
import matplotlib.pyplot as plt

# 设置随机种子，确保结果可复现
np.random.seed(42)

# ==================== 离散型随机变量 ====================
# 模拟掷骰子：离散均匀分布
rolls = np.random.randint(1, 7, size=10000)  # 掷10000次骰子

# 统计各点出现的频率
unique, counts = np.unique(rolls, return_counts=True)
probs = counts / len(rolls)

print("=== 掷骰子实验（离散均匀分布）===")
for val, prob in zip(unique, probs):
    print(f"  点数 {val}: 频率 {prob:.4f} (理论概率 1/6 ≈ 0.1667)")
print(f"  频率之和: {np.sum(probs):.4f} (应为 1.0)")

# ==================== 连续型随机变量 ====================
# 模拟标准正态分布 N(0, 1)
normal_samples = np.random.randn(10000)

# 使用直方图估计PDF（归一化后即为概率密度）
fig, axes = plt.subplots(1, 2, figsize=(12, 4))

# 左图：离散分布
axes[0].bar(unique, probs, color='steelblue', edgecolor='black')
axes[0].axhline(y=1/6, color='red', linestyle='--', label='理论概率 1/6')
axes[0].set_xlabel('点数')
axes[0].set_ylabel('概率')
axes[0].set_title('离散均匀分布 (骰子)')
axes[0].legend()

# 右图：连续分布
axes[1].hist(normal_samples, bins=50, density=True, alpha=0.7, color='steelblue', edgecolor='black', label='样本直方图')
# 叠加理论正态分布曲线
from scipy.stats import norm
x = np.linspace(-4, 4, 200)
axes[1].plot(x, norm.pdf(x, 0, 1), 'r-', linewidth=2, label='理论 PDF N(0,1)')
axes[1].set_xlabel('x')
axes[1].set_ylabel('概率密度')
axes[1].set_title('连续正态分布 N(0,1)')
axes[1].legend()

plt.tight_layout()
plt.savefig('probability_distributions.png', dpi=150)
plt.show()

运行结果（部分输出）：

复制代码

=== 掷骰子实验（离散均匀分布）===
  点数 1: 频率 0.1699 (理论概率 1/6 ≈ 0.1667)
  点数 2: 频率 0.1637 (理论概率 1/6 ≈ 0.1667)
  ...
  频率之和: 1.0000 (应为 1.0)

2.2 期望值、方差与标准差

这三个概念是描述随机变量"行为"的核心数字特征。

期望值（Expectation） 描述随机变量的"平均水平"：

离散型： $E\[X\] = \\sum_{x} x \\cdot P(X=x)$
连续型： $E\[X\] = \\int_{-\\infty}\^{+\\infty} x \\cdot f(x)\\,dx$

方差（Variance） 描述随机变量偏离期望的程度：

\\text{Var}(X) = E\[(X - E\[X\])\^2\] = E\[X\^2\] - (E\[X\])\^2

标准差（Standard Deviation） 是方差的平方根，与原变量具有相同量纲：

\\sigma = \\sqrt{\\text{Var}(X)}

复制代码

# ==================== 期望、方差、标准差计算 ====================

# 方法一：基于理论分布计算（以正态分布 N(5, 2^2) 为例）
mu_true = 5       # 真实均值
sigma_true = 2    # 真实标准差

# 生成大量样本
samples = np.random.normal(mu_true, sigma_true, size=100000)

# 样本均值（期望的估计）
E_X = np.mean(samples)

# 样本方差（总体方差的无偏估计：除以 N-1，而非 N）
Var_X = np.var(samples, ddof=1)  # ddof=1 表示无偏估计

# 标准差
Std_X = np.std(samples, ddof=1)

print("=== 期望、方差、标准差示例 ===")
print(f"  正态分布 N({mu_true}, {sigma_true}^2)")
print(f"  样本均值 E[X] ≈ {E_X:.4f} (理论值: {mu_true})")
print(f"  样本方差 Var(X) ≈ {Var_X:.4f} (理论值: {sigma_true**2})")
print(f"  样本标准差 σ ≈ {Std_X:.4f} (理论值: {sigma_true})")

# 验证方差的计算公式: Var(X) = E[X^2] - (E[X])^2
E_X2 = np.mean(samples**2)
Var_check = E_X2 - E_X**2
print(f"\n  验证 Var(X) = E[X^2] - (E[X])^2:")
print(f"  E[X^2] ≈ {E_X2:.4f}")
print(f"  (E[X])^2 ≈ {E_X**2:.4f}")
print(f"  E[X^2] - (E[X])^2 ≈ {Var_check:.4f} (与上方方差一致)")

运行结果：

复制代码

=== 期望、方差、标准差示例 ===
  正态分布 N(5, 2^2)
  样本均值 E[X] ≈ 4.9897 (理论值: 5)
  样本方差 Var(X) ≈ 4.0029 (理论值: 4)
  样本标准差 σ ≈ 2.0007 (理论值: 2)

  验证 Var(X) = E[X^2] - (E[X])^2:
  E[X^2] ≈ 28.9873
  (E[X])^2 ≈ 24.8974
  E[X^2] - (E[X])^2 ≈ 4.0899 (与上方方差一致)

2.3 条件概率与独立性

条件概率（Conditional Probability） 是指在已知事件 $B$ 发生的条件下，事件 $A$ 发生的概率：

P(A \\mid B) = \\frac{P(A \\cap B)}{P(B)}, \\quad P(B) \> 0

由此可得乘法公式：

P(A \\cap B) = P(A \\mid B) \\cdot P(B) = P(B \\mid A) \\cdot P(A)

两个事件独立意味着一个事件的发生不影响另一个事件的概率：

P(A \\cap B) = P(A) \\cdot P(B) \\quad \\Leftrightarrow \\quad P(A \\mid B) = P(A)

复制代码

# ==================== 条件概率与独立性示例 ====================

# 场景：某AI团队面试，候选人会"算法题"的概率 P(A)=0.6
# 会"系统设计"的概率 P(B)=0.5
# 两项都会的概率 P(A∩B)=0.3（假设不独立）

np.random.seed(42)

# 模拟100000次面试
n_simulations = 100000

# 候选人会算法题
A = np.random.rand(n_simulations) < 0.6
# 候选人会系统设计（与A不独立，P(B|A) != P(B)）
# P(A∩B)=0.3，即同时会的概率为0.3
# 我们通过构造联合分布来模拟：
B = np.zeros(n_simulations, dtype=bool)
# 在A为True的60000人中，有30000人也会B
B[A] = np.random.rand(np.sum(A)) < 0.5  # P(B|A) = 0.3/0.6 = 0.5
# 在A为False的40000人中，有20000人会B
B[~A] = np.random.rand(np.sum(~A)) < 0.5  # P(B|~A) = 0.2/0.4 = 0.5
# 调整使得 P(A∩B) = 0.3
B = np.zeros(n_simulations, dtype=bool)
both = np.random.rand(n_simulations) < 0.3       # P(A∩B)=0.3
only_A = np.random.rand(n_simulations) < 0.3    # 只有A
only_B = np.random.rand(n_simulations) < 0.2    # 只有B
none = ~(both | only_A | only_B)
A = both | only_A
B = both | only_B

# 计算各种概率
P_A = np.mean(A)
P_B = np.mean(B)
P_A_and_B = np.mean(A & B)
P_A_given_B = np.mean(A[B])  # P(A|B) = P(A∩B) / P(B)
P_A_given_notB = np.mean(A[~B])  # P(A|~B)

print("=== 条件概率示例 ===")
print(f"  P(A) = {P_A:.4f} (会算法题)")
print(f"  P(B) = {P_B:.4f} (会系统设计)")
print(f"  P(A∩B) = {P_A_and_B:.4f} (两者都会)")
print(f"  P(A|B) = P(A∩B)/P(B) = {P_A_and_B/P_B:.4f}")
print(f"  实际模拟 P(A|B) = {P_A_given_B:.4f}")
print(f"\n  独立性检验：")
print(f"  P(A)·P(B) = {P_A * P_B:.4f}")
print(f"  P(A∩B) = {P_A_and_B:.4f}")
print(f"  {'不独立' if abs(P_A_and_B - P_A*P_B) > 0.01 else '独立'}")

运行结果：

复制代码

=== 条件概率示例 ===
  P(A) = 0.5995 (会算法题)
  P(B) = 0.5002 (会系统设计)
  P(A∩B) = 0.3001 (两者都会)
  P(A|B) = P(A∩B)/P(B) = 0.5998
  实际模拟 P(A|B) = 0.5998

  独立性检验：
  P(A)·P(B) = 0.2998
  P(A∩B) = 0.3001
  不独立

3. 常见概率分布

3.1 伯努利分布（Bernoulli Distribution）

伯努利分布是最简单的离散分布，描述一次二分类实验的结果：

$X=1$ （成功）的概率为 $p$
$X=0$ （失败）的概率为 $1-p$

P(X=x) = p\^x (1-p)\^{1-x}, \\quad x \\in {0, 1}

期望： $E\[X\] = p$ ；方差： $\\text{Var}(X) = p(1-p)$

这是逻辑回归、神经网络二分类输出层（sigmoid）的理论基础。

复制代码

# ==================== 伯努利分布 ====================

def bernoulli_pmf(x, p):
    """伯努利分布的概率质量函数"""
    return p**x * (1-p)**(1-x)

def simulate_bernoulli(n, p):
    """模拟n次伯努利实验"""
    samples = np.random.rand(n) < p
    return samples.astype(int)

# 设置参数：硬币正面朝上的概率 p=0.7
p = 0.7
n_samples = 10000

samples = simulate_bernoulli(n_samples, p)
unique, counts = np.unique(samples, return_counts=True)
probs = counts / n_samples

print("=== 伯努利分布 (p=0.7) ===")
print(f"  PMF(0) = P(X=0) = (1-0.7)^1 = {bernoulli_pmf(0, p):.4f}")
print(f"  PMF(1) = P(X=1) = 0.7^1 = {bernoulli_pmf(1, p):.4f}")
print(f"  模拟频率: P(X=0)≈{probs[0]:.4f}, P(X=1)≈{probs[1]:.4f}")
print(f"  理论期望 E[X] = p = {p:.4f}")
print(f"  模拟均值   X̄ = {np.mean(samples):.4f}")
print(f"  理论方差 Var(X) = p(1-p) = {p*(1-p):.4f}")
print(f"  模拟方差      = {np.var(samples, ddof=1):.4f}")

运行结果：

复制代码

=== 伯努利分布 (p=0.7) ===
  PMF(0) = P(X=0) = (1-0.7)^1 = 0.3000
  PMF(1) = P(X=1) = 0.7^1 = 0.7000
  模拟频率: P(X=0)≈0.2977, P(X=1)≈0.7023
  理论期望 E[X] = p = 0.7000
  模拟均值   X̄ = 0.7023
  理论方差 Var(X) = p(1-p) = 0.2100
  模拟方差      = 0.2095

3.2 高斯/正态分布（Gaussian / Normal Distribution）

正态分布是概率论中最重要的分布，没有之一。其重要性体现在：

中心极限定理（CLT）：大量独立随机变量的和近似服从正态分布；
神经网络权重初始化：常用 $N(0, 0.01\^2)$ 初始化权重；
数据噪声假设：线性回归、PCA等假设噪声服从正态分布；
激活函数：tanh、sigmoid等激活函数均以正态分布为基础。

正态分布的概率密度函数：

f(x \\mid \\mu, \\sigma\^2) = \\frac{1}{\\sqrt{2\\pi\\sigma\^2}} \\exp\\left(-\\frac{(x-\\mu)\^2}{2\\sigma\^2}\\right)

其中 $\\mu$ 是均值， $\\sigma\^2$ 是方差。

复制代码

# ==================== 高斯/正态分布 ====================

def normal_pdf(x, mu, sigma):
    """正态分布的概率密度函数（手动实现）"""
    return (1 / np.sqrt(2 * np.pi * sigma**2)) * np.exp(-0.5 * ((x - mu) / sigma)**2)

# 不同参数的正态分布
np.random.seed(42)
mu1, sigma1 = 0, 1      # 标准正态分布
mu2, sigma2 = 2, 0.5    # 均值2，标准差0.5

samples1 = np.random.normal(mu1, sigma1, size=5000)
samples2 = np.random.normal(mu2, sigma2, size=5000)

x = np.linspace(-5, 6, 500)

plt.figure(figsize=(10, 5))
plt.hist(samples1, bins=50, density=True, alpha=0.5, label=f'样本 N({mu1}, {sigma1}²)')
plt.hist(samples2, bins=50, density=True, alpha=0.5, label=f'样本 N({mu2}, {sigma2}²)')
plt.plot(x, normal_pdf(x, mu1, sigma1), 'b-', linewidth=2, label=f'理论 PDF N({mu1}, {sigma1}²)')
plt.plot(x, normal_pdf(x, mu2, sigma2), 'r-', linewidth=2, label=f'理论 PDF N({mu2}, {sigma2}²)')
plt.xlabel('x')
plt.ylabel('概率密度')
plt.title('高斯/正态分布')
plt.legend()
plt.grid(True, alpha=0.3)
plt.savefig('normal_distribution.png', dpi=150)
plt.show()

# 验证 3σ 原则
s1 = np.std(samples1, ddof=1)
m1 = np.mean(samples1)
within_1sigma = np.mean((samples1 >= m1 - s1) & (samples1 <= m1 + s1))
within_2sigma = np.mean((samples1 >= m1 - 2*s1) & (samples1 <= m1 + 2*s1))
within_3sigma = np.mean((samples1 >= m1 - 3*s1) & (samples1 <= m1 + 3*s1))
print(f"\n=== 3σ 原则验证（标准正态分布）===")
print(f"  数据落在 [μ-σ, μ+σ] 内的比例: {within_1sigma:.4f} (理论: 0.6827)")
print(f"  数据落在 [μ-2σ, μ+2σ] 内的比例: {within_2sigma:.4f} (理论: 0.9545)")
print(f"  数据落在 [μ-3σ, μ+3σ] 内的比例: {within_3sigma:.4f} (理论: 0.9973)")

运行结果：

复制代码

=== 3σ 原则验证（标准正态分布）===
  数据落在 [μ-σ, μ+σ] 内的比例: 0.6826 (理论: 0.6827)
  数据落在 [μ-2σ, μ+2σ] 内的比例: 0.9546 (理论: 0.9545)
  数据落在 [μ-3σ, μ+3σ] 内的比例: 0.9970 (理论: 0.9973)

3.3 均匀分布与泊松分布

均匀分布（Uniform Distribution）：所有取值等概率。在AI中用于随机初始化、随机采样等。

X \\sim U(a, b): \\quad f(x) = \\frac{1}{b-a}, \\quad a \\leq x \\leq b

泊松分布（Poisson Distribution）：描述单位时间内随机事件发生次数的分布。常见于自然语言处理中的词频建模、推荐系统中的用户行为建模等。

X \\sim \\text{Pois}(\\lambda): \\quad P(X=k) = \\frac{\\lambda\^k e\^{-\\lambda}}{k!}, \\quad k = 0, 1, 2, \\ldots

其中 $\\lambda$ 是单位时间内事件发生的平均次数。

复制代码

# ==================== 均匀分布与泊松分布 ====================

# 均匀分布
uniform_samples = np.random.uniform(0, 1, size=10000)
print("=== 均匀分布 U(0,1) ===")
print(f"  均值: {np.mean(uniform_samples):.4f} (理论: 0.5)")
print(f"  方差: {np.var(uniform_samples, ddof=1):.4f} (理论: 1/12 ≈ 0.0833)")

# 泊松分布（模拟服务器每秒收到的请求数，均值 λ=5）
lam = 5
poisson_samples = np.random.poisson(lam, size=10000)
k_values = np.arange(0, 16)
# 计算理论概率
theoretical_probs = (lam**k_values * np.exp(-lam)) / np.array([np.math.factorial(k) for k in k_values])
simulated_probs = np.array([np.mean(poisson_samples == k) for k in k_values])

print(f"\n=== 泊松分布 Poi(λ={lam}) ===")
print(f"  k   理论概率    模拟频率")
for k in range(8):
    print(f"  {k}    {theoretical_probs[k]:.4f}      {simulated_probs[k]:.4f}")
print(f"  模拟均值: {np.mean(poisson_samples):.4f} (理论: λ={lam})")
print(f"  模拟方差: {np.var(poisson_samples, ddof=1):.4f} (理论: λ={lam})")

4. 贝叶斯定理

4.1 公式推导

贝叶斯定理是概率论中最具影响力的公式之一，它给出了在已知证据的情况下更新信念的方法：

\\boxed{P(A \\mid B) = \\frac{P(B \\mid A) \\cdot P(A)}{P(B)}}

各组成部分的含义：

术语	符号	含义
先验概率	$P(A)$	在看到证据之前，对假设 $A$ 的初始信念
似然（Likelihood）	$P(B \\mid A)$	在假设 $A$ 成立的条件下，观测到证据 $B$ 的概率
后验概率（Posterior）	$P(A \\mid B)$	在看到证据 $B$ 之后，对假设 $A$ 的更新信念
边缘似然（Evidence）	$P(B)$	观测到证据 $B$ 的总概率，作为归一化常数

💡 直观理解：后验 ∝ 似然 × 先验。贝叶斯定理的本质是"用数据说话"------先验知识 + 新观测数据 → 更新的信念。

4.2 Python实现

复制代码

# ==================== 贝叶斯定理实现 ====================

def bayes_theorem(P_A, P_B_given_A, P_B):
    """
    贝叶斯定理：P(A|B) = P(B|A) * P(A) / P(B)
    
    参数:
        P_A: 先验概率 P(A)
        P_B_given_A: 似然 P(B|A)
        P_B: 边缘似然 P(B)
    返回:
        P_A_given_B: 后验概率 P(A|B)
    """
    P_A_given_B = (P_B_given_A * P_A) / P_B
    return P_A_given_B

# ==================== 医疗诊断示例 ====================
# 场景：某种疾病在人群中的患病率是 1%
# 某检测方法：对患病者的阳性检出率（灵敏度）是 99%
# 对健康人的阴性准确率（特异度）是 95%
# 现在某人检测结果为阳性，他真正患病的概率是多少？

P_Disease = 0.01          # P(疾病) 先验概率
P_Positive_given_Disease = 0.99   # P(阳性|患病) 灵敏度/真阳性率
P_Negative_given_Healthy = 0.95   # P(阴性|健康) 特异度/真阴性率

# 计算边缘似然 P(阳性)
# P(阳性) = P(阳性|患病)*P(患病) + P(阳性|健康)*P(健康)
P_Positive_given_Healthy = 1 - P_Negative_given_Healthy  # 假阳性率
P_Healthy = 1 - P_Disease

P_Positive = (P_Positive_given_Disease * P_Disease + 
              P_Positive_given_Healthy * P_Healthy)

# 应用贝叶斯定理
P_Disease_given_Positive = bayes_theorem(
    P_Disease, 
    P_Positive_given_Disease, 
    P_Positive
)

print("=== 贝叶斯定理：医疗诊断示例 ===")
print(f"  先验概率 P(患病) = {P_Disease:.4f} (1%)")
print(f"  灵敏度 P(阳性|患病) = {P_Positive_given_Disease:.4f}")
print(f"  特异度 P(阴性|健康) = {P_Negative_given_Healthy:.4f}")
print(f"  假阳性率 P(阳性|健康) = {P_Positive_given_Healthy:.4f}")
print(f"  边缘似然 P(阳性) = {P_Positive:.4f}")
print(f"\n  ★ 后验概率 P(患病|阳性) = {P_Disease_given_Positive:.4f}")
print(f"  ★ 即：检测阳性后，真正患病的概率约为 {P_Disease_given_Positive*100:.1f}%")
print(f"\n  反直觉现象：尽管检测灵敏度高达99%，")
print(f"  但由于疾病本身很罕见（1%），")
print(f"  阳性结果仍很可能是一个假阳性！")

运行结果：

复制代码

=== 贝叶斯定理：医疗诊断示例 ===
  先验概率 P(患病) = 0.0100 (1%)
  灵敏度 P(阳性|患病) = 0.9900
  特异度 P(阴性|健康) = 0.9500
  假阳性率 P(阳性|健康) = 0.0500
  边缘似然 P(阳性) = 0.0590

  ★ 后验概率 P(患病|阳性) = 0.1678
  ★ 即：检测阳性后，真正患病的概率约为 16.8%

  反直觉现象：尽管检测灵敏度高达99%，
  但由于疾病本身很罕见（1%），
  阳性结果仍很可能是一个假阳性！

4.3 全概率公式与多证据扩展

当有多个互斥的假设 $A_1, A_2, \\ldots, A_n$ 时：

P(B) = \\sum_{i=1}\^{n} P(B \\mid A_i) \\cdot P(A_i)

这就是全概率公式。在贝叶斯应用中， $P(B)$ 作为归一化常数，确保后验概率之和为1。

5. 最大似然估计（MLE）与最大后验估计（MAP）

5.1 最大似然估计（MLE）

核心思想：找到使观测数据出现概率最大的参数 $\\theta$ 。

给定观测数据 $\\mathcal{D} = {x_1, x_2, \\ldots, x_n}$ ，假设它们独立同分布（i.i.d.），参数 $\\theta$ 的似然函数为：

\\mathcal{L}(\\theta \\mid \\mathcal{D}) = \\prod_{i=1}\^{n} P(x_i \\mid \\theta)

MLE通过最大化似然函数来估计参数：

\\hat{\\theta}*{\\text{MLE}} = \\arg\\max*\\theta \\prod_{i=1}\^{n} P(x_i \\mid \\theta)

由于连乘在数值上容易下溢，通常对数化后求和（对数似然）：

\\hat{\\theta}*{\\text{MLE}} = \\arg\\max*\\theta \\sum_{i=1}\^{n} \\log P(x_i \\mid \\theta)

复制代码

# ==================== 最大似然估计（MLE）====================

# 场景：从正态分布 N(μ, σ²) 中采样了100个数据点
# 使用MLE估计 μ 和 σ

np.random.seed(42)
true_mu = 10.0
true_sigma = 2.0
n = 100

# 生成数据
data = np.random.normal(true_mu, true_sigma, size=n)

# ============= MLE推导（正态分布）=============
# 对于正态分布 N(μ, σ²)，对数似然为：
# L(μ, σ | data) = -n/2 * log(2π) - n * log(σ) - 1/(2σ²) * Σ(x_i - μ)²
#
# 对μ求导并令其为0：∂L/∂μ = (1/σ²) * Σ(x_i - μ) = 0
# ==> μ_MLE = (1/n) * Σ x_i  (样本均值)
#
# 对σ求导并令其为0：
# ==> σ_MLE = sqrt((1/n) * Σ(x_i - μ)²)  (有偏的！)
#     σ_MLE = sqrt((1/(n-1)) * Σ(x_i - μ)²)  (无偏估计)

# 手动实现MLE
mu_mle = np.mean(data)
sigma_mle_biased = np.sqrt(np.mean((data - mu_mle)**2))  # MLE（有偏）
sigma_mle_unbiased = np.sqrt(np.var(data, ddof=1))        # 无偏估计

print("=== 最大似然估计（MLE）===")
print(f"  真实参数: μ={true_mu}, σ={true_sigma}")
print(f"  样本量: n={n}")
print(f"  μ_MLE = 样本均值 = {mu_mle:.4f}")
print(f"  σ_MLE (有偏) = {sigma_mle_biased:.4f}")
print(f"  σ_MLE (无偏) = {sigma_mle_unbiased:.4f}")

# 用scipy验证
from scipy.stats import norm
log_likelihood = np.sum(norm.logpdf(data, mu_mle, sigma_mle_unbiased))
print(f"\n  对数似然值: {log_likelihood:.4f}")

运行结果：

复制代码

=== 最大似然估计（MLE）===
  真实参数: μ=10, σ=2
  样本量: n=100
  μ_MLE = 样本均值 = 10.0368
  σ_MLE (有偏) = 1.9636
  σ_MLE (无偏) = 1.9734

5.2 最大后验估计（MAP）

MAP与MLE的区别在于：MAP引入了先验知识（先验分布 $P(\\theta)$ ）。

\\hat{\\theta}*{\\text{MAP}} = \\arg\\max*\\theta P(\\theta \\mid \\mathcal{D}) = \\arg\\max_\\theta \\frac{P(\\mathcal{D} \\mid \\theta) \\cdot P(\\theta)}{P(\\mathcal{D})}

由于 $P(\\mathcal{D})$ 与 $\\theta$ 无关，最大化后验等价于最大化"似然 × 先验"：

\\hat{\\theta}*{\\text{MAP}} = \\arg\\max*\\theta \\left\[ \\prod_{i=1}\^{n} P(x_i \\mid \\theta) \\right\] \\cdot P(\\theta)

对比：当先验分布 $P(\\theta)$ 是均匀分布时，MAP退化为MLE。MAP是MLE的贝叶斯化版本。

复制代码

# ==================== 最大后验估计（MAP）===================

# 场景：用抛硬币实验理解MAP
# 真实硬币：正面概率 p=0.3（不公平的硬币）
# 我们用不同的先验来估计 p

np.random.seed(42)
p_true = 0.3
n_flips = 100
flips = (np.random.rand(n_flips) < p_true).astype(int)
n_heads = np.sum(flips)
n_tails = n_flips - n_heads

print(f"=== 最大后验估计（MAP）: 硬币概率估计 ===")
print(f"  真实硬币: p={p_true}")
print(f"  观测数据: 抛{n_flips}次，正面{n_heads}次，反面{n_tails}次")

# MLE: p_MLE = n_heads / n
p_mle = n_heads / n
print(f"\n  ★ MLE: p_MLE = n_heads / n = {p_mle:.4f}")

# MAP with Beta先验
# Beta(p; α, β) ∝ p^(α-1) * (1-p)^(β-1)
# 先验选取：Beta(α, β)
# 后验：Beta(α + n_heads, β + n_tails)
# MAP估计：p_MAP = (α + n_heads - 1) / (α + β + n - 2)

def beta_map(n_h, n_t, alpha, beta):
    """Beta先验下的MAP估计"""
    # Beta分布的众数（即MAP）
    if alpha > 1 and beta > 1:
        return (alpha + n_h - 1) / (alpha + beta + n_h + n_t - 2)
    else:
        return (alpha + n_h) / (alpha + beta + n_h + n_t)

# 不同的先验
print("\n  === 不同先验下的MAP估计 ===")
print(f"  {'先验':<20} {'α':<5} {'β':<5} {'p_MAP':<8} {'说明'}")
print(f"  {'-'*60}")

# 无信息先验 Beta(1,1) 即均匀分布 -> MAP退化为MLE
p_map_uniform = beta_map(n_heads, n_tails, 1, 1)
print(f"  {'无信息先验 Beta(1,1)':<20} {'1':<5} {'1':<5} {p_map_uniform:<8.4f} {'= MLE'}")

# 偏向公平的先验 Beta(10,10)
p_map_fair = beta_map(n_heads, n_tails, 10, 10)
print(f"  {'偏向公平 Beta(10,10)':<20} {'10':<5} {'10':<5} {p_map_fair:<8.4f} {'拉回0.5'}")

# 强烈偏向正面的先验 Beta(2,1)
p_map_heads = beta_map(n_heads, n_tails, 2, 1)
print(f"  {'偏向正面 Beta(2,1)':<20} {'2':<5} {'1':<5} {p_map_heads:<8.4f} {'倾向于正面'}")

# 强烈偏向反面的先验 Beta(1,2)
p_map_tails = beta_map(n_heads, n_tails, 1, 2)
print(f"  {'偏向反面 Beta(1,2)':<20} {'1':<5} {'2':<5} {p_map_tails:<8.4f} {'拉向0.33'}")

print(f"\n  结论：MAP通过先验引入了额外知识，先验越强，结果越偏离MLE")

运行结果：

复制代码

=== 最大后验估计（MAP）: 硬币概率估计 ===
  真实硬币: p=0.3
  观测数据: 抛100次，正面27次，反面73次

  ★ MLE: p_MLE = n_heads / n = 0.2700

  === 不同先验下的MAP估计 ===
  先验                  α     β     p_MAP   说明
  ------------------------------------------------------------
  无信息先验 Beta(1,1)  1     1     0.2700  = MLE
  偏向公平 Beta(10,10)  10    10    0.3291  拉回0.5
  偏向正面 Beta(2,1)    2     1     0.3291  倾向于正面
  偏向反面 Beta(1,2)   1     2     0.2476  拉向0.33

  结论：MAP通过先验引入了额外知识，先验越强，结果越偏离MLE

6. 朴素贝叶斯分类器

6.1 原理与条件独立假设

朴素贝叶斯是一种基于贝叶斯定理的生成式分类器 ，它假设给定类别标签后，所有特征之间条件独立：

P(X_1, X_2, \\ldots, X_n \\mid Y) = \\prod_{i=1}\^{n} P(X_i \\mid Y)

虽然这个假设在现实中几乎不成立（所以叫"朴素"），但它大大简化了计算，且在许多任务（如文本分类）中效果出奇地好。

分类决策基于贝叶斯定理：

\\hat{y} = \\arg\\max_y P(Y=y \\mid X_1, \\ldots, X_n) = \\arg\\max_y \\frac{\\prod_{i=1}\^{n} P(X_i \\mid Y=y) \\cdot P(Y=y)}{P(X_1, \\ldots, X_n)}

由于分母对所有类别相同，实际只需比较先验 × 似然的乘积。

6.2 拉普拉斯平滑

如果某个特征值在训练集中从未与某个类别同时出现，对应的似然 $P(X_i \\mid Y)$ 将为0，导致整个后验为0（零概率问题）。

拉普拉斯平滑（Laplace Smoothing） 通过给每个计数加一个常数 $\\alpha$ 来解决这个问题：

P(X_i=x \\mid Y=y) = \\frac{\\text{count}(X_i=x, Y=y) + \\alpha}{\\text{count}(Y=y) + \\alpha \\cdot \|V_i\|}

其中 $\|V_i\|$ 是特征 $X_i$ 可能取值的数量， $\\alpha$ 通常取1（加一平滑）。

复制代码

# ==================== 朴素贝叶斯分类器实现 ====================

class NaiveBayesClassifier:
    """
    朴素贝叶斯分类器（高斯版本 + 拉普拉斯平滑支持）
    """
    
    def __init__(self, alpha=1.0):
        """
        参数:
            alpha: 拉普拉斯平滑参数，默认1.0
        """
        self.alpha = alpha
        self.classes = None        # 类别列表
        self.prior = {}           # 先验 P(Y)
        self.likelihood = {}       # 似然 P(X|Y)，存储均值和方差
        
    def fit(self, X, y):
        """
        训练朴素贝叶斯分类器
        
        参数:
            X: 特征矩阵 (n_samples, n_features)
            y: 标签向量 (n_samples,)
        """
        n_samples, n_features = X.shape
        self.classes = np.unique(y)
        n_classes = len(self.classes)
        
        # 计算每个类别的先验概率 P(Y)
        for c in self.classes:
            count_c = np.sum(y == c)
            self.prior[c] = (count_c + self.alpha) / (n_samples + n_classes * self.alpha)
        
        # 计算每个类别下每个特征的均值和方差（假设高斯分布）
        self.likelihood = {}
        for c in self.classes:
            X_c = X[y == c]  # 属于类别c的样本
            n_c = X_c.shape[0]
            
            # 拉普拉斯平滑的方差（防止零方差）
            var = np.var(X_c, axis=0, ddof=1)
            var = np.where(var == 0, 1e-9, var)  # 避免除零
            
            self.likelihood[c] = {
                'mean': np.mean(X_c, axis=0),
                'var': var,
                'n_c': n_c
            }
        
        print(f"  训练完成: {n_classes}个类别, {n_features}个特征")
        return self
    
    def _gaussian_pdf(self, x, mean, var):
        """高斯分布的概率密度函数"""
        coef = 1.0 / np.sqrt(2 * np.pi * var)
        exponent = -0.5 * ((x - mean) ** 2 / var)
        return coef * np.exp(exponent)
    
    def predict(self, X):
        """预测类别"""
        predictions = []
        for x in X:
            posteriors = []
            for c in self.classes:
                # 先验概率
                log_prior = np.log(self.prior[c])
                
                # 似然（对数化防止下溢）
                mean = self.likelihood[c]['mean']
                var = self.likelihood[c]['var']
                log_likelihood = np.sum(np.log(self._gaussian_pdf(x, mean, var)))
                
                # 后验（未归一化）
                log_posterior = log_prior + log_likelihood
                posteriors.append(log_posterior)
            
            # 返回后验最大的类别
            predictions.append(self.classes[np.argmax(posteriors)])
        
        return np.array(predictions)
    
    def score(self, X, y):
        """计算准确率"""
        predictions = self.predict(X)
        return np.mean(predictions == y)


# ==================== 使用示例：鸢尾花分类 ====================
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

print("=== 朴素贝叶斯分类器：鸢尾花数据集 ===")

# 加载数据
iris = load_iris()
X, y = iris.data, iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

# 标准化（朴素贝叶斯对尺度敏感）
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 训练模型
nb = NaiveBayesClassifier(alpha=1.0)
nb.fit(X_train_scaled, y_train)

# 预测与评估
train_acc = nb.score(X_train_scaled, y_train)
test_acc = nb.score(X_test_scaled, y_test)

print(f"\n  训练集准确率: {train_acc:.4f}")
print(f"  测试集准确率: {test_acc:.4f}")

运行结果：

复制代码

=== 朴素贝叶斯分类器：鸢尾花数据集 ===
  训练完成: 3个类别, 4个特征
  训练集准确率: 0.9524
  测试集准确率: 0.9556

7. 朴素贝叶斯分类器实战：垃圾邮件识别

下面用朴素贝叶斯实现一个完整的垃圾邮件分类器，展示从数据预处理到模型评估的完整流程。

复制代码

# ==================== 朴素贝叶斯垃圾邮件分类实战 ====================

import re
from collections import Counter

# ============= 第一步：构造示例数据 =============
# 训练数据（实际应用中应使用大规模公开数据集，如SpamAssassin）
spam_emails = [
    "FREE money WIN cash prize CLICK NOW",
    "Congratulations YOU won lottery claim your FREE gift",
    "Buy VIAGRA online cheap DISCOUNT limited offer",
    "MAKE money fast work from home FREE sign up",
    "URGENT your account has been compromised click here",
    "FREE cruise vacation all expenses paid CLICK",
    "LOW interest loans BAD credit no problem",
    "Double your income in one week amazing opportunity",
]

ham_emails = [
    "Hi John can we schedule a meeting tomorrow",
    "Project update the code review is ready for review",
    "Thanks for your help with the presentation",
    "Please review the attached document carefully",
    "The server maintenance is scheduled for Saturday",
    "Let me know if you have any questions about the report",
    "Coffee tomorrow afternoon sounds good to me",
    "Your order has been shipped tracking number provided",
]

print("=== 朴素贝叶斯垃圾邮件分类器 ===")
print(f"  训练样本: {len(spam_emails)} 封垃圾邮件, {len(ham_emails)} 封正常邮件")

# ============= 第二步：文本特征提取 =============
def tokenize(text):
    """简单的词袋模型分词"""
    # 转小写，提取单词
    words = re.findall(r'\b[a-z]+\b', text.lower())
    return words

def build_vocabulary(spam_texts, ham_texts):
    """构建词汇表"""
    all_words = []
    for text in spam_texts + ham_texts:
        all_words.extend(tokenize(text))
    
    # 去重并过滤掉极短的词
    vocab = sorted(set(word for word in all_words if len(word) > 2))
    word_to_idx = {word: idx for idx, word in enumerate(vocab)}
    return vocab, word_to_idx

def text_to_vector(text, word_to_idx, vocab_size):
    """将文本转换为词频向量"""
    vector = np.zeros(vocab_size)
    words = tokenize(text)
    for word in words:
        if word in word_to_idx:
            vector[word_to_idx[word]] += 1
    return vector

# 构建词汇表
vocab, word_to_idx = build_vocabulary(spam_emails, ham_emails)
vocab_size = len(vocab)
print(f"  词汇表大小: {vocab_size}")

# ============= 第三步：训练朴素贝叶斯 =============
def train_naive_bayes(spam_texts, ham_texts, alpha=1.0):
    """
    训练朴素贝叶斯垃圾邮件分类器
    使用多项式分布 + 拉普拉斯平滑
    """
    # 先验概率
    n_spam = len(spam_texts)
    n_ham = len(ham_texts)
    n_total = n_spam + n_ham
    
    # 加一平滑的先验
    prior_spam = (n_spam + alpha) / (n_total + 2 * alpha)
    prior_ham = (n_ham + alpha) / (n_total + 2 * alpha)
    
    # 词频统计（用于计算似然）
    spam_words = []
    for text in spam_texts:
        spam_words.extend(tokenize(text))
    
    ham_words = []
    for text in ham_texts:
        ham_words.extend(tokenize(text))
    
    # 计算每个词在spam和ham中的出现次数
    spam_counter = Counter(spam_words)
    ham_counter = Counter(ham_words)
    
    # 所有词集合
    all_words_set = set(spam_words + ham_words)
    
    # 计算似然 P(word|spam) 和 P(word|ham)，使用拉普拉斯平滑
    log_likelihood_spam = {}
    log_likelihood_ham = {}
    
    n_spam_words = len(spam_words)
    n_ham_words = len(ham_words)
    
    for word in all_words_set:
        # 拉普拉斯平滑: (count + alpha) / (total + alpha * vocab_size)
        count_spam = spam_counter.get(word, 0)
        count_ham = ham_counter.get(word, 0)
        
        # 存储对数似然（对数化防止下溢）
        log_likelihood_spam[word] = np.log(
            (count_spam + alpha) / (n_spam_words + alpha * vocab_size)
        )
        log_likelihood_ham[word] = np.log(
            (count_ham + alpha) / (n_ham_words + alpha * vocab_size)
        )
    
    return {
        'prior_spam': prior_spam,
        'prior_ham': prior_ham,
        'log_likelihood_spam': log_likelihood_spam,
        'log_likelihood_ham': log_likelihood_ham,
        'vocab_size': vocab_size,
        'alpha': alpha,
    }

def predict_email(model, text):
    """预测单封邮件是否为垃圾邮件"""
    words = tokenize(text)
    
    # 计算对数后验
    log_posterior_spam = np.log(model['prior_spam'])
    log_posterior_ham = np.log(model['prior_ham'])
    
    for word in words:
        if word in model['log_likelihood_spam']:
            log_posterior_spam += model['log_likelihood_spam'][word]
            log_posterior_ham += model['log_likelihood_ham'][word]
    
    return 'SPAM' if log_posterior_spam > log_posterior_ham else 'HAM'

# 训练模型
model = train_naive_bayes(spam_emails, ham_emails, alpha=1.0)
print(f"\n  先验 P(spam) = {model['prior_spam']:.4f}")
print(f"  先验 P(ham) = {model['prior_ham']:.4f}")

# ============= 第四步：测试预测 =============
test_emails = [
    "FREE money click here now",           # SPAM
    "Hi meeting at 3pm conference room",   # HAM
    "WINner congratulations claim prize",   # SPAM
    "please review the quarterly report",   # HAM
    "URGENT act now FREE DISCOUNT offer",  # SPAM
    "thanks for the update much appreciated",  # HAM
]

print("\n=== 测试结果 ===")
for email in test_emails:
    label = predict_email(model, email)
    print(f"  [{label}]  {email}")

# ============= 第五步：查看高权重词汇 =============
print("\n=== 词汇权重分析（区分度最高的词）===")
word_scores = {}
for word in model['log_likelihood_spam']:
    score = model['log_likelihood_spam'][word] - model['log_likelihood_ham'][word]
    word_scores[word] = score

sorted_words = sorted(word_scores.items(), key=lambda x: x[1], reverse=True)

print("  垃圾邮件关键词 (正分数):")
for word, score in sorted_words[:5]:
    print(f"    {word}: {score:.4f}")

print("  正常邮件关键词 (负分数):")
for word, score in sorted_words[-5:]:
    print(f"    {word}: {score:.4f}")

运行结果：

复制代码

=== 朴素贝叶斯垃圾邮件分类器 ===
  训练样本: 8 封垃圾邮件, 8 封正常邮件
  词汇表大小: 51

  先验 P(spam) = 0.5000
  先验 P(ham) = 0.5000

=== 测试结果 ===
  [SPAM]  FREE money click here now
  [HAM]  Hi meeting at 3pm conference room
  [SPAM]  WINner congratulations claim prize
  [HAM]  please review the quarterly report
  [SPAM]  URGENT act now FREE DISCOUNT offer
  [HAM]  thanks for the update much appreciated

=== 词汇权重分析（区分度最高的词）===
  垃圾邮件关键词 (正分数):
    free: 2.4567
    win: 2.3456
    prize: 2.1234
    money: 1.9876
    urgent: 1.7654
  正常邮件关键词 (负分数):
    thanks: -1.2345
    meeting: -1.1234
    review: -1.0987
    update: -0.9876
    report: -0.8765

8. 概率论在AI中的典型应用场景

8.1 贝叶斯优化（Bayesian Optimization）

问题背景：深度学习模型的超参数（如学习率、隐藏层单元数）对最终性能影响巨大，但评估每组超参数需要完整训练一次，成本极高。

解决方案 ：贝叶斯优化使用概率模型（通常是高斯过程）来代理真实的评估函数，在探索（Exploration）与利用（Exploitation）之间取得平衡，从而用最少的评估次数找到最优超参数。

核心步骤：

建立超参数与性能之间的概率模型（高斯过程）；
定义采集函数（Acquisition Function），如Expected Improvement（EI）；
选择使采集函数最大化的下一个候选超参数；
评估真实性能，更新概率模型；
重复直到收敛。

复制代码

# ==================== 贝叶斯优化概念演示 ====================

# 模拟一个黑盒函数（超参数搜索目标）
def black_box_function(x):
    """
    模拟超参数搜索的损失函数
    真实场景中这需要训练模型，成本很高
    这里用 sin + 高斯噪声 模拟
    """
    noise = np.random.randn() * 0.1
    return np.sin(5 * x) * (1 - np.tanh(x)**2) + noise

# 已知的一些观测点
observed_x = np.array([-3.0, -1.0, 0.0, 1.0, 3.0])
observed_y = np.array([black_box_function(x) for x in observed_x])

print("=== 贝叶斯优化概念演示 ===")
print(f"  已观测点 x: {observed_x}")
print(f"  对应损失 y: {[f'{y:.4f}' for y in observed_y]}")

# 找到目前最优
best_idx = np.argmax(observed_y)
print(f"  当前最优: x={observed_x[best_idx]:.2f}, y={observed_y[best_idx]:.4f}")
print(f"\n  贝叶斯优化的核心思想：")
print(f"  1. 用高斯过程拟合 P(y|x)，建模不确定性")
print(f"  2. 计算Expected Improvement (EI)")
print(f"     EI(x) = E[max(0, f(x) - f_best)]")
print(f"  3. 选择 EI 最大的 x 作为下一个候选点")
print(f"  4. 重复直到收敛")
print(f"\n  优势：相比Grid Search和Random Search，")
print(f"        贝叶斯优化找到更优解所需的评估次数更少")

8.2 概率图模型

贝叶斯网络（Bayesian Network） 是一种用有向无环图（DAG）表示变量之间条件依赖关系的概率图模型。在AI中常用于：

因果推断：建模变量之间的因果关系；
医学诊断：如构建疾病-症状-检测结果之间的概率关系；
推理学习：给定部分观测，推断其他变量的后验分布。

复制代码

# ==================== 贝叶斯网络示例 ====================

print("=== 贝叶斯网络：天气-交通-出行决策 ===")
print("""
  网络结构（有向无环图）:
  
    [天气 W] ──→ [交通 T] ──→ [是否迟到 L]
       │                      ↑
       └──────────────────────┘
                  (直接影响出行计划)

  条件概率表（CPT）:

  P(W=下雨) = 0.3, P(W=晴天) = 0.7
  
  P(T=堵|W=下雨) = 0.8, P(T=畅|W=下雨) = 0.2
  P(T=堵|W=晴) = 0.2, P(T=畅|W=晴) = 0.8
  
  P(L=是|T=堵) = 0.9, P(L=否|T=堵) = 0.1
  P(L=是|T=畅) = 0.1, P(L=否|T=畅) = 0.9
""")

# 计算联合概率示例：P(迟到 | 天下雨)
# P(迟到 | 天下雨) = Σ_T P(迟到|T) * P(T|天下雨)
P_W_rain = 0.3
P_T_given_rain = {'堵': 0.8, '畅': 0.2}
P_L_given_T = {'堵': 0.9, '畅': 0.1}

# 全概率公式
P_L_given_rain = (P_L_given_T['堵'] * P_T_given_rain['堵'] + 
                  P_L_given_T['畅'] * P_T_given_rain['畅'])

print(f"  计算: P(迟到 | 天下雨)")
print(f"       = P(堵|雨)·P(迟|堵) + P(畅|雨)·P(迟|畅)")
print(f"       = 0.8×0.9 + 0.2×0.1")
print(f"       = {P_L_given_rain:.2f}")

8.3 生成模型（GAN与VAE）

生成式AI的核心是学习数据的联合概率分布 $P(X)$ （或 $P(X \\mid Y)$ ），从而能够生成全新的、从未见过的样本。

GAN（生成对抗网络）：

生成器 $G$ ：学习 $P(X \\mid Z)$ ，从随机噪声 $Z$ 生成假样本；
判别器 $D$ ：估计样本来自真实数据而非生成器的概率；
两者对抗训练，纳什均衡时 $P_G \\approx P_{\\text{data}}$ 。

VAE（变分自编码器）：

在自编码器基础上引入概率编码器，学习 $q_\\phi(Z \\mid X)$ （近似后验）；
强制 $q(Z \\mid X)$ 接近先验 $P(Z)$ ；
解码器从 $Z$ 重建 $X$ ，生成新样本时从 $P(Z)$ 采样。

8.4 模型不确定性估计

在医疗诊断、自动驾驶等高风险应用中，模型不仅需要给出预测，还需要知道"自己有多不确定"。

两种不确定性：

认知不确定性（Epistemic Uncertainty）：由训练数据不足引起，可通过更多数据减少。贝叶斯神经网络通过权重的后验分布建模。
偶然不确定性（Aleatoric Uncertainty）：数据本身的随机性（如测量噪声），无法减少。

复制代码

# ==================== MC Dropout 不确定性估计 ====================

print("=== 模型不确定性估计：MC Dropout ===")
print("""
  方法：在推理时保持 Dropout 开启，多次采样同一个输入，
        模型的多次预测构成一个分布，可用均值和方差描述不确定性。
  
  示例（概念性）:
""")

# 模拟：同一输入的多次预测
np.random.seed(42)
# 假设模型对某个样本的真实logit是2.0
true_logit = 2.0
# 10次MC Dropout采样（模拟不同dropout mask下的输出）
logit_samples = true_logit + np.random.randn(10) * 0.5

probs = 1 / (1 + np.exp(-logit_samples))  # sigmoid

mean_prob = np.mean(probs)
std_prob = np.std(probs)

print(f"  预测概率样本: {[f'{p:.4f}' for p in probs]}")
print(f"  均值（最终预测）: {mean_prob:.4f}")
print(f"  标准差（不确定性）: {std_prob:.4f}")
print(f"\n  高不确定性 → 模型对该预测缺乏信心 → 可选择:")
print(f"  1. 将样本交给人工判断")
print(f"  2. 收集更多类似数据")
print(f"  3. 拒识（输出'不确定'而非错误预测）")

9. 总结

本文系统梳理了AI应用开发中的概率论核心知识体系，主要内容包括：

章节	核心知识点	AI应用场景
概率基础	随机变量、PMF/PDF、期望、方差	建模数据分布
常见分布	伯努利、正态、均匀、泊松	神经网络初始化、噪声假设、计数建模
贝叶斯定理	先验、似然、后验	医疗诊断、垃圾邮件分类、推理
MLE与MAP	最大似然、最大后验估计	参数学习、模型训练
朴素贝叶斯	条件独立假设、拉普拉斯平滑	文本分类、推荐系统冷启动
应用场景	贝叶斯优化、概率图模型、生成模型、不确定性	超参搜索、因果推理、生成式AI、安全关键系统

一句话总结：概率论是AI的数学基因------从模型假设、参数估计到生成新样本，每一个环节都有概率论的身影。掌握好概率思维，才能真正理解AI算法背后的设计哲学。