【机器学习】24. 聚类-层次式 Hierarchical Clustering

1. 优势和缺点

优点:

  • 无需提前指定集群的数量
    通过对树状图进行不同层次的切割,可以得到所需数量的簇。
  • 树状图提供了一个有用的可视化-集群过程的可解释的描述
  • 树状图可能揭示一个有意义的分类

缺点:

  • 计算复杂度较大, 限制了其在大规模数据集上的应用,空间复杂度n^2 , 时间复杂度 n^3
  • not incremental 没有增量, 假设所有数据都存在
  • 噪声和离群点会对聚类结果产生较大影响

2. 两种方法

聚合式 agglomerative(bottom-up) and 分裂式divisive(top-down)

  • Single link(min)
  • Complete link(max)
  • Average link

4. 聚合式agglomerative(bottom-up) 实现

  • 计算邻近矩阵
  • 将每个数据点都视为一个簇
  • 重复过程:
    • 合并两个最近的簇
    • 更新邻近矩阵
  • 结束条件: 直到只有一个剩余的簇

5. 分裂式divisive(top-down)实现

  • 首先, 将数据点的距离关系表示为一个邻近图, 生成MST
  • 重复过程:
    • 通过切断MST中的最长边来创建新簇
    • 结束条件: 直到所有的点都被分割为单独的簇
相关推荐
逐梦苍穹几秒前
Gemma 4 12B本地部署避坑:OMLX后缀、4bit/8bit选择与gemma4_unified报错修复
人工智能·gemma
Hongwen1001几秒前
我是怎么把 AI API 网关服务跑通的:域名、邮件、支付、上游渠道
人工智能
卡梅德生物科技小能手几秒前
卡美德生物科普:LTA(脂磷壁酸)
人工智能·经验分享·生活
深圳市机智人激光雷达几秒前
空间几何解算与数字孪生:激光雷达在电力输电通道巡检中的核心机理
人工智能·机器学习·机器人·自动驾驶·无人机
weixin_428005301 分钟前
C#调用 AI学习从0开始-第2阶段(Function Calling+工具调用智能体)-第9天实战
人工智能·学习·ai·c#·functioncalling
PKUMOD1 分钟前
论文导读 | 智能体技能相关研究分享
人工智能
Fzuim2 分钟前
Codex + llama.cpp + Qwen3.6-35B:零成本的本地 AI 编程方案,我把整套流程跑通了
人工智能·llama
通信小呆呆4 分钟前
从理想到现实:实际系统中非理想特性及其补偿方法
算法·数学建模·信号处理
SNSZR18 分钟前
2026 AI实操五大学习思路:破解碎片化自学无法落地商用项目的核心痛点
人工智能·学习
AI人工智能+电脑小能手8 分钟前
【大白话说Java面试题 第97题】【Mysql篇】第27题:说说分库与分表的设计?
java·开发语言·数据库·分布式·mysql·算法