机器学习入门(五)聚类算法

前面介绍的线性回归、逻辑回归和决策树都是监督算法,这篇文章将介绍聚类算法,它是一个无监督的算法。

聚类算法会根据对象某些属性得相似度,将其自动划分为不同得类别。常用的聚类算法有 KMeans(K-均值)Mean-shift(均值漂移聚类算法)DBSCAN(基于密度的空间聚类算法)

KMeans(K-均值)

KMeans(K-均值)的算法流程:

  1. 确定当前数据有多少个类型(或者叫做簇),假设为 k 个
  2. 从数据中随机选取 K 个点,作为初始的聚类中心
  3. 分别计算每个样本点到各个聚类中心的距离,并逐个分配到距离其最近的簇中
  4. 所有点分配完成后,更新K个类中心位置,类中心定义为簇内所有点在各个维度的均值;
  5. 与前一次计算得到的K个聚类中心比较,如果聚类中心点发生变化,转至步骤3;如果聚类中心点不变化,则停止迭代

效果如下图所示:

Mean-shift(均值漂移算法)

Mean-shift(均值漂移算法)的算法流程:

  1. 随机选择未分类点作为中心点
  2. 找出离中心点距离在带宽(我们来设置)之内的点,记作集合S
  3. 计算从中心点到集合S中每个元素的偏移向量M
  4. 中心点以向量M移动
  5. 重复步骤2-4,直到收敛
  6. 重复1-5直到所有的点都被归类
  7. 分类:根据每个类,对每个点的访问频率,取访问频率最大的那个类,作为当前点集的所属类

效果如下图所示:

DBSCAN(基于密度的空间聚类算法)

DBSCAN 的算法流程:

  1. 寻找核心点形成临时聚类簇。扫描全部样本点,如果某个样本点R半径范围内点数目>=MinPoints,则将其纳入核心点列表,并将其密度直达的点形成对应的临时聚类簇。
  2. 合并临时聚类簇得到聚类簇。对于每一个临时聚类簇,检查其中的点是否为核心点,如果是,将该点对应的临时聚类簇和当前临时聚类簇合并,得到新的临时聚类簇。
  3. 重复2的操作,直到当前临时聚类簇中的每一个点要么不在核心点列表,要么其密度直达的点都已经在该临时聚类簇,该临时聚类簇升级成为聚类簇。继续对剩余的临时聚类簇进行相同的合并操作,直到全部临时聚类簇被处理。

效果如下图所示:

总结

KMeans(K-均值) Mean-shift(均值漂移算法) DBSCAN(基于密度的空间聚类算法)
特点 1. 实现简单,收敛快;2. 需要指定类别数量 1. 自动发现类别数量,不需要人工选择;2. 需要选择区域半径 1. 过滤噪声数据;2. 不需要人为选择类别数量;3. 数据密度不同时影响结果
缺点 1. 对初始点敏感,算法的输出可能会受到初始中心点选择的影响,这可能导致局部最优而非全局最优解;2. KMeans更适用于凸形状(例如圆形、球形)的集群,对于非凸形状(例如环形)的集群处理能力较差。 1. 缺乏模板更新机制。;2. 跟踪过程中窗口宽度保持不变,目标尺度变化时跟踪效果不佳;3. 目标速度较快时,跟踪效果不好 1. 不能很好反映高维数据。2. 该算法难以适应密度不均匀的数据集
应用场景 文档分类;客户分类 图形分割、目标跟踪 异常检测;图形处理

参考

相关推荐
AI小云1 天前
【机器学习与实战】回归分析与预测:线性回归-03-损失函数与梯度下降
机器学习
L.fountain1 天前
机器学习shap分析案例
人工智能·机器学习
weixin_429630261 天前
机器学习-第一章
人工智能·机器学习
Cedric11131 天前
机器学习中的距离总结
人工智能·机器学习
寒月霜华2 天前
机器学习-数据标注
人工智能·机器学习
Godspeed Zhao2 天前
自动驾驶中的传感器技术46——Radar(7)
人工智能·机器学习·自动驾驶
limengshi1383922 天前
机器学习面试:请介绍几种常用的学习率衰减方式
人工智能·学习·机器学习
救救孩子把2 天前
2-机器学习与大模型开发数学教程-第0章 预备知识-0-2 数列与级数(收敛性、幂级数)
人工智能·数学·机器学习
蒋星熠2 天前
如何在Anaconda中配置你的CUDA & Pytorch & cuNN环境(2025最新教程)
开发语言·人工智能·pytorch·python·深度学习·机器学习·ai
Hcoco_me2 天前
什么是机器学习?
人工智能·机器学习