【机器学习】24. 聚类-层次式 Hierarchical Clustering

1. 优势和缺点

优点:

  • 无需提前指定集群的数量
    通过对树状图进行不同层次的切割,可以得到所需数量的簇。
  • 树状图提供了一个有用的可视化-集群过程的可解释的描述
  • 树状图可能揭示一个有意义的分类

缺点:

  • 计算复杂度较大, 限制了其在大规模数据集上的应用,空间复杂度n^2 , 时间复杂度 n^3
  • not incremental 没有增量, 假设所有数据都存在
  • 噪声和离群点会对聚类结果产生较大影响

2. 两种方法

聚合式 agglomerative(bottom-up) and 分裂式divisive(top-down)

  • Single link(min)
  • Complete link(max)
  • Average link

4. 聚合式agglomerative(bottom-up) 实现

  • 计算邻近矩阵
  • 将每个数据点都视为一个簇
  • 重复过程:
    • 合并两个最近的簇
    • 更新邻近矩阵
  • 结束条件: 直到只有一个剩余的簇

5. 分裂式divisive(top-down)实现

  • 首先, 将数据点的距离关系表示为一个邻近图, 生成MST
  • 重复过程:
    • 通过切断MST中的最长边来创建新簇
    • 结束条件: 直到所有的点都被分割为单独的簇
相关推荐
CoderYanger8 分钟前
优选算法-栈:67.基本计算器Ⅱ
java·开发语言·算法·leetcode·职场和发展·1024程序员节
金智维科技官方14 分钟前
RPA财务机器人为企业高质量发展注入动能
人工智能·机器人·rpa·财务
沫儿笙18 分钟前
安川机器人tag焊接怎么节省保护气
人工智能·物联网·机器人
2501_9411474222 分钟前
人工智能赋能智慧教育互联网应用:智能学习与教育管理优化实践探索》
人工智能
jllllyuz23 分钟前
Matlab实现基于Matrix Pencil算法实现声源信号角度和时间估计
开发语言·算法·matlab
稚辉君.MCA_P8_Java34 分钟前
DeepSeek 插入排序
linux·后端·算法·架构·排序算法
yLDeveloper36 分钟前
一只菜鸟学机器学习的日记:入门分布偏移
机器学习·dive into deep learning
多多*38 分钟前
Java复习 操作系统原理 计算机网络相关 2025年11月23日
java·开发语言·网络·算法·spring·microsoft·maven
阿龙AI日记41 分钟前
详解Transformer04:Decoder的结构
人工智能·深度学习·自然语言处理
爱写代码的小朋友41 分钟前
“数字镜像”与认知负能者:生成式AI个性化学习支持者的协同构建与伦理规制研究
人工智能