EM算法到底是什么东东

EM（Expectation-Maximization期望最大化）算法是机器学习中非常重要的一类算法，广泛应用于聚类、缺失数据建模、隐变量模型学习等场景，比如高斯混合模型（GMM）就是经典应用。

🐤 第一步：直观理解

EM算法的核心是：

我不知道这个数据是哪一类（隐变量），就先猜；然后根据可见的情况，慢慢猜的更准。

EM算法就是一个"猜→修正→再猜"的循环。

例子1：

给你一篇文章让你读
可观测数据：文档中的词语。
隐变量：文档的主题分布。
本质：主题是潜在的，决定了词语的出现概率。

例子2：

假设有两个数据分布（两类），然后随机从这两个分布里抽出一些样本交给你，你不知道给你的样本点属于哪一类（隐含的类别），以及这两个数据分布的统计特性（均值，方差）

EM算法的做法是：

随便猜一下每个点属于哪个类别（初始猜测）
计算：在当前参数下，每个点属于各个类别的"概率"（这是E步）
用这些概率来"反推"出最合理的类别参数（比如均值、方差）（这是M步）
重复步骤2-3，直到参数不怎么变为止。

✍️ 第二步：数学公式

你有一堆数据点 x 1 , ... , x n \mathbf{x}_1, \dots, \mathbf{x}_n x1,...,xn，你相信这些数据来自 K K K 个不同的高斯分布：

每个分布 k k k 有自己的参数：均值 μ k \mu_k μk、方差 σ k 2 \sigma_k^2 σk2、权重 π k \pi_k πk（概率总和为1）
但你不知道哪个点来自哪个分布（这是隐变量）

E步（Expectation），即"先猜"

初始化：随机初始化均值 μ k \mu_k μk、方差 σ k 2 \sigma_k^2 σk2 和权重 π k \pi_k πk

计算每个样本属于每个高斯分布的"后验概率"：

γ i k = π k ⋅ N ( x i ∣ μ k , σ k 2 ) ∑ j = 1 K π j ⋅ N ( x i ∣ μ j , σ j 2 ) \gamma_{ik} = \frac{\pi_k \cdot \mathcal{N}(x_i | \mu_k, \sigma_k^2)}{\sum_{j=1}^K \pi_j \cdot \mathcal{N}(x_i | \mu_j, \sigma_j^2)} γik=∑j=1Kπj⋅N(xi∣μj,σj2)πk⋅N(xi∣μk,σk2)

这表示：样本 x i x_i xi 属于第 k k k 个高斯分布的概率。

M步（Maximization），即"反推参数"

根据这些概率 γ i k \gamma_{ik} γik 来重新估计参数：

μ k = ∑ i γ i k x i ∑ i γ i k , σ k 2 = ∑ i γ i k ( x i − μ k ) 2 ∑ i γ i k , π k = 1 n ∑ i γ i k \mu_k = \frac{\sum_i \gamma_{ik} x_i}{\sum_i \gamma_{ik}}, \quad \sigma_k^2 = \frac{\sum_i \gamma_{ik} (x_i - \mu_k)^2}{\sum_i \gamma_{ik}}, \quad \pi_k = \frac{1}{n} \sum_i \gamma_{ik} μk=∑iγik∑iγikxi,σk2=∑iγik∑iγik(xi−μk)2,πk=n1i∑γik

🧊 第三步：一个具体的例子------高斯混合模型（GMM）

什么是GMM？

高斯混合模型（GMM）就是用多个"高斯分布"加权叠加来组合描述一个复杂的数据分布。GMM 的参数（每个高斯的均值、方差、权重）不能直接算出来，但可以用 EM算法来一步步逼近！

GMM = 模型框架
EM = 参数求解方法

GMM分布可视化

python 复制代码

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

# 解决中文显示问题
plt.rcParams['font.sans-serif'] = ['SimHei']  # 使用黑体显示中文
plt.rcParams['axes.unicode_minus'] = False  # 解决负号显示问题

# 定义两个高斯分布的参数
# 每个分布由均值(mu)、标准差(sigma)和权重(weight)组成
mu1, sigma1, weight1 = 5, 1, 0.4  # 分布1: 均值5, 标准差1, 权重40%
mu2, sigma2, weight2 = 15, 2, 0.6  # 分布2: 均值15, 标准差2, 权重60%

# 生成X轴范围，覆盖两个分布的3σ范围
x_min = min(mu1 - 3*sigma1, mu2 - 3*sigma2)
x_max = max(mu1 + 3*sigma1, mu2 + 3*sigma2)
x = np.linspace(x_min, x_max, 1000)  # 在合理范围内生成1000个点

# 计算单个分布的概率密度函数(PDF)
pdf1 = weight1 * norm.pdf(x, mu1, sigma1)  # 第一个高斯分布的加权PDF
pdf2 = weight2 * norm.pdf(x, mu2, sigma2)  # 第二个高斯分布的加权PDF

# 计算混合后的整体分布(GMM的概率密度)
pdf_total = pdf1 + pdf2  # 高斯混合模型的PDF是两个加权高斯分布的和

# 创建图形并设置大小
plt.figure(figsize=(10, 6))

# 绘制各个分布
plt.plot(x, pdf1, label=f"高斯分布1 (μ={mu1}, σ={sigma1}, 权重={weight1})",
         linestyle='--', color='blue')
plt.plot(x, pdf2, label=f"高斯分布2 (μ={mu2}, σ={sigma2}, 权重={weight2})",
         linestyle='--', color='green')
plt.plot(x, pdf_total, label="混合分布 GMM", linestyle='--',color='red', linewidth=1.5)

# 添加图形标题和标签
plt.title("高斯混合模型(GMM)示意图", fontsize=14)
plt.xlabel("特征值 (示例:糖分含量)", fontsize=12)
plt.ylabel("概率密度", fontsize=12)

# 添加图例和网格
plt.legend(fontsize=10)
plt.grid(True, linestyle='--', alpha=0.6)

# 显示图形
plt.tight_layout()  # 自动调整子图参数，使之填充整个图像区域
plt.show()

问题背景

假设我们有一堆学生身高数据，比如160cm、155cm、175cm等等，但我们不知道每个学生是小学生还是中学生。我们猜测这些身高来自两个群体：

小学生：身高服从一个正态分布（高斯分布），有自己的均值和标准差。
中学生：身高服从另一个正态分布，也有自己的均值和标准差。

此外，每个群体在总数据中占一定比例。我们的目标是：

弄清楚每个学生属于小学生还是中学生的概率。
估计两个群体的参数：比例（ π π π）、均值（ μ μ μ）、标准差（ σ σ σ）。

因为我们不知道真实的类别和参数，所以要用EM算法通过迭代来解决这个问题。

EM算法是什么？

EM算法（Expectation-Maximization）是一种用来处理"隐变量"问题的工具。这里，隐变量就是"每个学生属于哪个群体"，我们看不到它，但可以通过数据推测。EM算法分为两步：

E步（期望）：根据当前猜测的参数，算出每个学生属于小学生或中学生的概率。
M步（最大化）：用这些概率更新参数，让模型更好地拟合数据。

这两步不断重复，直到参数稳定。

具体案例：一步步拆解

1. 初始化：随便猜参数

我们先随便猜一下两个群体的参数，作为起点：

小学生 ：
- 比例（ π 1 π_1 π1）：50%（0.5）
- 均值（ μ 1 μ_1 μ1）：150cm
- 标准差（ σ 1 σ_1 σ1）：5cm
中学生 ：
- 比例（ π 2 π_2 π2）：50%（0.5）
- 均值（ μ 2 μ_2 μ2）：170cm
- 标准差（ σ 2 σ_2 σ2）：6cm

这些是初始猜测，不一定准确，但EM算法会帮我们调整。

2. E步：算概率（责任值）

现在拿一个学生，身高是160cm。我们要算他属于小学生还是中学生的概率。

（1）用正态分布公式算"可能性"

每个群体都有一个正态分布曲线：

小学生：均值150cm，标准差5cm。
中学生：均值170cm，标准差6cm。

正态分布的公式是：
P ( X ) = 1 2 π ⋅ σ exp ⁡ ( − ( X − μ ) 2 2 σ 2 ) P(X)=\frac{1}{\sqrt{2\pi}\cdot\sigma}\exp\left(-\frac{(X-\mu)^2}{2\sigma^2}\right) P(X)=2π ⋅σ1exp(−2σ2(X−μ)2)

小学生 ：
P ( 小学生 ∣ 160 ) = 1 2 π ⋅ 5 exp ⁡ ( − ( 160 − 150 ) 2 2 ⋅ 5 2 ) P(\text{小学生}|160)=\frac{1}{\sqrt{2\pi}\cdot5}\exp\left(-\frac{(160-150)^2}{2\cdot5^2}\right) P(小学生∣160)=2π ⋅51exp(−2⋅52(160−150)2)

计算指数部分：(160 - 150)² = 100，2 × 5² = 50，-100 / 50 = -2，exp(-2) ≈ 0.135。所以结果是一个较小的数。
中学生 ：
P ( 中学生 ∣ 160 ) = 1 2 π ⋅ 6 exp ⁡ ( − ( 160 − 170 ) 2 2 ⋅ 6 2 ) P(\text{中学生}|160)=\frac{1}{\sqrt{2\pi}\cdot6}\exp\left(-\frac{(160-170)^2}{2\cdot6^2}\right) P(中学生∣160)=2π ⋅61exp(−2⋅62(160−170)2)

计算指数部分：(160 - 170)² = 100，2 × 6² = 72，-100 / 72 ≈ -1.39，exp(-1.39) ≈ 0.25。结果比小学生的稍大。

简单来说：

160cm离150cm（小学生均值）较远，所以可能性较低。
160cm离170cm（中学生均值）较近，所以可能性较高。

（2）结合比例算后验概率（责任值）

光看可能性还不够，还要考虑每个群体占的总比例（ π 1 = 0.5 π_1=0.5 π1=0.5， π 2 = 0.5 π_2=0.5 π2=0.5）。用贝叶斯公式：
P ( 小学生 ∣ 160 ) = π 1 ⋅ P ( 160 ∣ 小学生 ) π 1 ⋅ P ( 160 ∣ 小学生 ) + π 2 ⋅ P ( 160 ∣ 中学生 ) P(\text{小学生}|160)=\frac{π_1\cdot P(160|\text{小学生})}{π_1\cdot P(160|\text{小学生})+π_2\cdot P(160|\text{中学生})} P(小学生∣160)=π1⋅P(160∣小学生)+π2⋅P(160∣中学生)π1⋅P(160∣小学生)

假设计算后：

P ( 小学生 ∣ 160 ) ≈ 0.3 P(\text{小学生}|160)≈0.3 P(小学生∣160)≈0.3（30%）
P ( 中学生 ∣ 160 ) ≈ 0.7 P(\text{中学生}|160)≈0.7 P(中学生∣160)≈0.7（70%）

意思是：这个160cm的学生有30%概率是小学生，70%概率是中学生。对所有学生都做类似计算。

3. M步：更新参数

现在我们用所有学生的概率来调整参数。假设有3个学生：160cm、155cm、175cm，E步算出的概率如下：

身高	P(小学生)	P(中学生)
160cm	0.3	0.7
155cm	0.6	0.4
175cm	0.1	0.9

（1）更新比例（ π π π）

新 π 1 = π_1= π1=所有学生属于小学生的概率平均值：
π 1 = 0.3 + 0.6 + 0.1 3 = 1.0 3 ≈ 0.33 π_1=\frac{0.3+0.6+0.1}{3}=\frac{1.0}{3}≈0.33 π1=30.3+0.6+0.1=31.0≈0.33
新 π 2 = 1 − π 1 ≈ 0.67 π_2=1-π_1≈0.67 π2=1−π1≈0.67

（2）更新均值（ μ μ μ）

新 μ 1 = μ_1= μ1=身高 × 属于小学生的概率的加权平均：
μ 1 = ( 160 ⋅ 0.3 ) + ( 155 ⋅ 0.6 ) + ( 175 ⋅ 0.1 ) 0.3 + 0.6 + 0.1 = 48 + 93 + 17.5 1.0 = 158.5 cm μ_1=\frac{(160\cdot0.3)+(155\cdot0.6)+(175\cdot0.1)}{0.3+0.6+0.1}=\frac{48+93+17.5}{1.0}=158.5\,\text{cm} μ1=0.3+0.6+0.1(160⋅0.3)+(155⋅0.6)+(175⋅0.1)=1.048+93+17.5=158.5cm
新 μ 2 = μ_2= μ2=类似计算：
μ 2 = ( 160 ⋅ 0.7 ) + ( 155 ⋅ 0.4 ) + ( 175 ⋅ 0.9 ) 0.7 + 0.4 + 0.9 = 112 + 62 + 157.5 2.0 = 165.75 cm μ_2=\frac{(160\cdot0.7)+(155\cdot0.4)+(175\cdot0.9)}{0.7+0.4+0.9}=\frac{112+62+157.5}{2.0}=165.75\,\text{cm} μ2=0.7+0.4+0.9(160⋅0.7)+(155⋅0.4)+(175⋅0.9)=2.0112+62+157.5=165.75cm

（3）更新标准差（ σ σ σ）

新 σ 1 = σ_1= σ1= 身高偏离新均值 μ 1 μ_1 μ1的加权方差：
σ 1 = 0.3 ⋅ ( 160 − 158.5 ) 2 + 0.6 ⋅ ( 155 − 158.5 ) 2 + 0.1 ⋅ ( 175 − 158.5 ) 2 1.0 σ_1=\sqrt{\frac{0.3\cdot(160-158.5)^2+0.6\cdot(155-158.5)^2+0.1\cdot(175-158.5)^2}{1.0}} σ1=1.00.3⋅(160−158.5)2+0.6⋅(155−158.5)2+0.1⋅(175−158.5)2
计算后可能得到一个新值，比如4.8cm。
新 σ 2 = σ_2= σ2=类似计算，得到新值，比如5.5cm。

4. 重复迭代

用新参数（ π 1 = 0.33 , μ 1 = 158.5 , σ 1 = 4.8 , π 2 = 0.67 , μ 2 = 165.75 , σ 2 = 5.5 π_1=0.33,μ_1=158.5,σ_1=4.8,π_2=0.67,μ_2=165.75,σ_2=5.5 π1=0.33,μ1=158.5,σ1=4.8,π2=0.67,μ2=165.75,σ2=5.5）再跑一遍E步和M步。每轮迭代后，参数会更接近真实值。重复直到参数几乎不变，比如：

小学生 ： π 1 ≈ 0.4 , μ 1 ≈ 148 cm , σ 1 ≈ 4 cm π_1≈0.4,μ_1≈148\text{cm},σ_1≈4\text{cm} π1≈0.4,μ1≈148cm,σ1≈4cm
中学生 ： π 2 ≈ 0.6 , μ 2 ≈ 172 cm , σ 2 ≈ 5 cm π_2≈0.6,μ_2≈172\text{cm},σ_2≈5\text{cm} π2≈0.6,μ2≈172cm,σ2≈5cm

这意味着EM算法成功把混合的身高数据分成了两个群体，并估计了它们的特征。

📊 第四步：完整Python代码