2EM算法详解

橙汁味的风2025-12-28 18:25

复制代码

**EM 算法（Expectation-Maximization Algorithm，期望最大化算法）** 是一种迭代算法，专门用于在包含**隐变量**或数据缺失的情况下，计算参数的**最大似然估计（MLE）**。

EM 算法的核心思想就像是"先猜后改"：因为不知道隐变量，所以先猜隐变量的分布（E步），再根据猜的结果更新模型参数（M步），如此循环直到收敛。

这也是 HMM 模型进行无监督学习（Baum-Welch 算法）时的核心数学基础。

一、直观理解：EM 解决什么问题？

举个经典的抛硬币例子来理解：

简单场景（无隐变量）：
假设你有硬币 A，抛了10次，结果是 正正反正...。

任务： 求 A 正面朝上的概率。
解法： 直接统计正面的次数除以总次数即可。这是直接的最大似然估计。

困难场景（有隐变量）：
假设你有两枚硬币 A 和 B，它们的偏向不同。你随机拿出一枚抛了一组，又随机拿出一枚抛了一组...总共 5 组数据。

数据： (正正反...), (反反正...), ...
缺失信息（隐变量）： 你不知道每一组数据到底是用 A 抛的，还是用 B 抛的。
任务： 求 A 和 B 分别正面朝上的概率。
解法： 这就是 EM 算法的用武之地。

二、 EM 算法的详细步骤

假设我们有：

观测数据 （你能看见的，如抛硬币结果）。
隐变量 （你看不见的，如是哪枚硬币）。
模型参数 （你想求的，如硬币的偏向概率）。

我们的目标是最大化似然函数。

Step 0: 初始化

随机初始化模型参数。

例子： 随便猜硬币 A 的概率是 0.6，B 的概率是 0.5。

Step 1: E步 - 期望步

核心逻辑： 固定当前的参数，根据观测数据，计算隐变量的后验概率分布。或者更准确地说，计算Q函数（对数似然函数的期望）。

通俗解释（填补缺失数据）：
既然我们有了当前的参数（比如 A=0.6, B=0.5），我们就可以算出每一组数据"更像是 A 抛的"还是"更像是 B 抛的"。
我们不直接说"这是A"或"这是B"，而是计算一个概率权重（例如：第一组数据 70% 可能是 A，30% 可能是 B）。
这一步相当于把缺失的隐变量用它的期望值补全了。

Step 2: M步 - 最大化步

核心逻辑： 固定刚刚算出的隐变量分布（或 Q 函数），重新调整参数，使得似然函数最大化。

通俗解释（重新估计参数）：
现在我们假设 E 步算出的"权重"就是事实。
根据这些加权的观测数据，重新计算硬币 A 和 B 的正面概率。
比如，既然第一组数据"70%是A"，那么第一组里的正面次数就有 70% 归功于 A。把所有组归功于 A 的次数加起来，除以总次数，就得到了新的 A 的参数。

Step 3: 收敛检查

重复执行 E步和 M步。

每次迭代，似然函数的值都会增加（或不变）。当参数的变化量小于设定的阈值，或者似然函数不再显著增加时，停止迭代。

三、图解 EM 算法原理

为了更好地理解数学原理，可以参考上面的图示概念：

目标函数（蓝色曲线）通常是非凸的，很难直接求极值。
E步：构建一个下界函数（Lower Bound，图中的红色曲线），使其在当前点与目标函数相切。这利用了 Jensen 不等式。
M步：找到这个下界函数的最高点，作为新的参数。
因为下界函数被推高了，目标函数的值也随之上升。

四、优缺点总结

优点：
算法简单稳定，保证似然函数值在每次迭代中非递减。
把复杂的含有隐变量的优化问题，转化为一系列简单的无隐变量的优化子问题。
缺点：
局部最优： EM 算法容易陷入局部最优解（Local Optima），结果非常依赖于初始值的选择。
速度慢： 在某些高维数据上收敛速度可能较慢。

上一篇：日本 Novel Crystal 突破10kV障碍

下一篇：聊下几次线上删除MySQL导致的故障

热门推荐

01GitHub 镜像站点 02Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 03OpenClaw Chrome扩展使用教程 - 浏览器中继控制 04使用 1panel面板部署 php网站 05Linux下V2Ray安装配置指南 06UV安装并设置国内源 07openclaw配置教程（linux+局域网ollama）08从零搭建一个 PHP 登录注册系统（含完整源码）09Vue-skills的中文文档 10Claude Code Skills 实用使用手册