【机器学习】23. 聚类-GMM: Gaussian Mixture Model

1. 定义和假设

定义:probabilistic clustering(model-base)

假设:数据服从正态分布

2. 算法内容

我们假设数据是由k个高斯(正态)分布混合生成的。每个分布有2个参数:μ和σ。

一个分布对应一个集群

从u和o的随机初始值开始

在每次估计后,我们计算每个例子属于每个分布(簇)的概率

利用概率,我们重新计算参数,直到它们不变。

案例

假设有20000个数据点,两个高斯分布,两个标准差都是2,使用GMM聚类。

  1. 初始化均值方差。标准差限定了,初始均值即可。随机初始化均值分别为-2和3
  2. 根据贝叶斯计算概率

    0.5 是每个分布的权重
  3. 更新均值

    新的均值是基于数据点的加权平均值计算的. 权重由每个数据点属于特定分布的概率决定
  4. 迭代和收敛, 重复步骤2和步骤3, 直到μ不再产生变化或变化非常小, 数据点最终分配给概率更高的分布

3. 和K-Means对比

k-means: crisp(hard)-assignment

GMM -- probabilistic(soft assignment)

GMM可以看作是k均值的泛化

GMM更灵活。允许椭圆的cluster而不是圆形

相关推荐
IT_陈寒2 小时前
Vue这个坑我跳了两次,原来问题出在这
前端·人工智能·后端
新新技术迷2 小时前
Node给AI接口做SSE代理与鉴权
人工智能
redreamSo3 小时前
大模型是不是到顶了?瓶颈到底在哪
人工智能·openai
Oo9203 小时前
Tool Use 背后的技术逻辑
人工智能
姗姗来迟了3 小时前
Vue3封装AI流式对话组件踩坑实录
人工智能
码上天下4 小时前
用Pinia管理AI多会话状态
人工智能
用户054324329704 小时前
Next.js接大模型流式SSE实操踩坑
人工智能
Lihua奏5 小时前
# 机器学习:机器是怎么从数据里学出规则的
机器学习
Assby5 小时前
从 Function Calling 到 MCP:理解 Agent 工具调用的底层通信机制
人工智能·后端
小星AI5 小时前
Claude Code 从入门到精通,一步到位
人工智能