2EM算法详解

复制代码
**EM 算法(Expectation-Maximization Algorithm,期望最大化算法)** 是一种迭代算法,专门用于在包含**隐变量**或数据缺失的情况下,计算参数的**最大似然估计(MLE)**。

EM 算法的核心思想就像是"先猜后改":因为不知道隐变量,所以先猜隐变量的分布(E步),再根据猜的结果更新模型参数(M步),如此循环直到收敛。

这也是 HMM 模型进行无监督学习(Baum-Welch 算法)时的核心数学基础。


一、 直观理解:EM 解决什么问题?

举个经典的抛硬币例子来理解:

  1. 简单场景(无隐变量):
    假设你有硬币 A,抛了10次,结果是 正正反正...
  • 任务: 求 A 正面朝上的概率 。
  • 解法: 直接统计正面的次数除以总次数即可。这是直接的最大似然估计。
  1. 困难场景(有隐变量):
    假设你有两枚硬币 A 和 B,它们的偏向不同。你随机拿出一枚抛了一组,又随机拿出一枚抛了一组...总共 5 组数据。
  • 数据: (正正反...), (反反正...), ...
  • 缺失信息(隐变量): 你不知道每一组数据到底是用 A 抛的,还是用 B 抛的
  • 任务: 求 A 和 B 分别正面朝上的概率。
  • 解法: 这就是 EM 算法的用武之地。

二、 EM 算法的详细步骤

假设我们有:

  • 观测数据 (你能看见的,如抛硬币结果)。
  • 隐变量 (你看不见的,如是哪枚硬币)。
  • 模型参数 (你想求的,如硬币的偏向概率)。

我们的目标是最大化似然函数 。

Step 0: 初始化

随机初始化模型参数 。

  • 例子: 随便猜硬币 A 的概率是 0.6,B 的概率是 0.5。
Step 1: E步 - 期望步

核心逻辑: 固定当前的参数 ,根据观测数据 ,计算隐变量 的后验概率分布。或者更准确地说,计算Q函数(对数似然函数的期望)。

  • 通俗解释(填补缺失数据):
    既然我们有了当前的参数 (比如 A=0.6, B=0.5),我们就可以算出每一组数据"更像是 A 抛的"还是"更像是 B 抛的"。
  • 我们不直接说"这是A"或"这是B",而是计算一个概率权重(例如:第一组数据 70% 可能是 A,30% 可能是 B)。
  • 这一步相当于把缺失的隐变量 用它的期望值补全了。
Step 2: M步 - 最大化步

核心逻辑: 固定刚刚算出的隐变量分布(或 Q 函数),重新调整参数 ,使得似然函数最大化。

  • 通俗解释(重新估计参数):
    现在我们假设 E 步算出的"权重"就是事实。
  • 根据这些加权的观测数据,重新计算硬币 A 和 B 的正面概率。
  • 比如,既然第一组数据"70%是A",那么第一组里的正面次数就有 70% 归功于 A。把所有组归功于 A 的次数加起来,除以总次数,就得到了新的 A 的参数 。
Step 3: 收敛检查

重复执行 E步 和 M步。

每次迭代,似然函数的值都会增加(或不变)。当参数 的变化量小于设定的阈值 ,或者似然函数不再显著增加时,停止迭代。


三、 图解 EM 算法原理

为了更好地理解数学原理,可以参考上面的图示概念:

  1. 目标函数(蓝色曲线)通常是非凸的,很难直接求极值。
  2. E步 :构建一个下界函数(Lower Bound,图中的红色曲线),使其在当前点 与目标函数相切。这利用了 Jensen 不等式
  3. M步:找到这个下界函数的最高点,作为新的参数 。
  4. 因为下界函数被推高了,目标函数的值也随之上升。

四、 优缺点总结

  • 优点:

  • 算法简单稳定,保证似然函数值在每次迭代中非递减。

  • 把复杂的含有隐变量的优化问题,转化为一系列简单的无隐变量的优化子问题。

  • 缺点:

  • 局部最优: EM 算法容易陷入局部最优解(Local Optima),结果非常依赖于初始值 的选择。

  • 速度慢: 在某些高维数据上收敛速度可能较慢。

相关推荐
默默开发12 分钟前
完整版:本地电脑 + WiFi 搭建 AI 自动炒股 + 自我学习系统
人工智能·学习·电脑
zzh9407717 分钟前
2026年AI文件上传功能实战:聚合站处理图片、PDF、PPT全指南
人工智能·pdf·powerpoint
仰泳的熊猫3 小时前
题目2570:蓝桥杯2020年第十一届省赛真题-成绩分析
数据结构·c++·算法·蓝桥杯
新缸中之脑5 小时前
Paperless-NGX实战文档管理
人工智能
无极低码6 小时前
ecGlypher新手安装分步指南(标准化流程)
人工智能·算法·自然语言处理·大模型·rag
grant-ADAS7 小时前
记录paddlepaddleOCR从环境到使用默认模型,再训练自己的数据微调模型再推理
人工智能·深度学习
炎爆的土豆翔7 小时前
OpenCV 阈值二值化优化实战:LUT 并行、手写 AVX2 与 cv::threshold 性能对比
人工智能·opencv·计算机视觉
软件算法开发7 小时前
基于海象优化算法的LSTM网络模型(WOA-LSTM)的一维时间序列预测matlab仿真
算法·matlab·lstm·一维时间序列预测·woa-lstm·海象优化
智能相对论7 小时前
从AWE看到海尔智慧家庭步步引领
人工智能