【机器学习】24. 聚类-层次式 Hierarchical Clustering

1. 优势和缺点

优点:

  • 无需提前指定集群的数量
    通过对树状图进行不同层次的切割,可以得到所需数量的簇。
  • 树状图提供了一个有用的可视化-集群过程的可解释的描述
  • 树状图可能揭示一个有意义的分类

缺点:

  • 计算复杂度较大, 限制了其在大规模数据集上的应用,空间复杂度n^2 , 时间复杂度 n^3
  • not incremental 没有增量, 假设所有数据都存在
  • 噪声和离群点会对聚类结果产生较大影响

2. 两种方法

聚合式 agglomerative(bottom-up) and 分裂式divisive(top-down)

  • Single link(min)
  • Complete link(max)
  • Average link

4. 聚合式agglomerative(bottom-up) 实现

  • 计算邻近矩阵
  • 将每个数据点都视为一个簇
  • 重复过程:
    • 合并两个最近的簇
    • 更新邻近矩阵
  • 结束条件: 直到只有一个剩余的簇

5. 分裂式divisive(top-down)实现

  • 首先, 将数据点的距离关系表示为一个邻近图, 生成MST
  • 重复过程:
    • 通过切断MST中的最长边来创建新簇
    • 结束条件: 直到所有的点都被分割为单独的簇
相关推荐
开发者导航几秒前
【开发者导航】一键解决AI生成内容格式复制难题的剪贴板工具:PasteMD
人工智能
位东风几秒前
希尔排序(Shell Sort)详解
算法·排序算法
bu_shuo12 分钟前
将AI生成的数学公式正确复制到word中
人工智能·chatgpt·word·latex
AI科技星15 分钟前
光速飞行器动力学方程的第一性原理推导、验证与范式革命
数据结构·人工智能·线性代数·算法·机器学习·概率论
橘颂TA17 分钟前
【剑斩OFFER】算法的暴力美学——leetCode 946 题:验证栈序列
c++·算法·leetcode·职场和发展·结构与算法
Lun3866buzha18 分钟前
基于FCOS和HRNet的易拉罐缺陷检测与分类系统:实现工业质检自动化,提升检测精度与效率_1
分类·数据挖掘·自动化
摘星编程18 分钟前
RAG的下一站:检索增强生成如何重塑企业知识中枢?
android·人工智能
闻缺陷则喜何志丹19 分钟前
【状态机动态规划】3686. 稳定子序列的数量|1969
c++·算法·动态规划·力扣·状态机动态规划
Aaron_94520 分钟前
BitNet:1-bit大语言模型的高效推理框架详解
人工智能·语言模型·自然语言处理