【机器学习】23. 聚类-GMM: Gaussian Mixture Model

1. 定义和假设

定义:probabilistic clustering(model-base)

假设:数据服从正态分布

2. 算法内容

我们假设数据是由k个高斯(正态)分布混合生成的。每个分布有2个参数:μ和σ。

一个分布对应一个集群

从u和o的随机初始值开始

在每次估计后,我们计算每个例子属于每个分布(簇)的概率

利用概率,我们重新计算参数,直到它们不变。

案例

假设有20000个数据点,两个高斯分布,两个标准差都是2,使用GMM聚类。

  1. 初始化均值方差。标准差限定了,初始均值即可。随机初始化均值分别为-2和3
  2. 根据贝叶斯计算概率

    0.5 是每个分布的权重
  3. 更新均值

    新的均值是基于数据点的加权平均值计算的. 权重由每个数据点属于特定分布的概率决定
  4. 迭代和收敛, 重复步骤2和步骤3, 直到μ不再产生变化或变化非常小, 数据点最终分配给概率更高的分布

3. 和K-Means对比

k-means: crisp(hard)-assignment

GMM -- probabilistic(soft assignment)

GMM可以看作是k均值的泛化

GMM更灵活。允许椭圆的cluster而不是圆形

相关推荐
常威正在打来福3 小时前
frontend-design 入门指南:OpenClaw / Claude Code / Codex 三平台安装教程
人工智能·ai·ai编程
玖釉-3 小时前
C++ 中的循环语句详解:while、do...while、for、嵌套循环与循环控制
开发语言·c++·算法
MediaTea3 小时前
AI 术语通俗词典:Dropout 层
人工智能
武子康3 小时前
调查研究-140 全球机器人产业深度调研报告【02篇】:全球机器人产业格局分析:五个阶段并存与商业化路径 2026
人工智能·ai·机器人·具身智能·智能化
木心术14 小时前
Windows系统下MySQL与AI工具集成方案:数据存储与调用实践
人工智能·windows·mysql
不做无法实现的梦~4 小时前
运动控制系统复习一览-----常考题目总结版本
算法
小短腿的代码世界4 小时前
信号路由风暴:Qt算法交易系统的高频信号分发架构
qt·算法·架构
阿文的代码库4 小时前
一文读懂GROUP BY 1,2 VS GROUP BY column_1, column_2 的区别
算法
a752066284 小时前
OpenClaw企业微信渠道配置教程|API模式+长连接+全部授权
人工智能·机器人·企业微信·openclaw部署·小龙虾一键安装
AI语宙漫游指南4 小时前
AI Agent Skill 系统架构全解析:SKILL 规范与框架实现
人工智能·agent