【机器学习】24. 聚类-层次式 Hierarchical Clustering

1. 优势和缺点

优点:

  • 无需提前指定集群的数量
    通过对树状图进行不同层次的切割,可以得到所需数量的簇。
  • 树状图提供了一个有用的可视化-集群过程的可解释的描述
  • 树状图可能揭示一个有意义的分类

缺点:

  • 计算复杂度较大, 限制了其在大规模数据集上的应用,空间复杂度n^2 , 时间复杂度 n^3
  • not incremental 没有增量, 假设所有数据都存在
  • 噪声和离群点会对聚类结果产生较大影响

2. 两种方法

聚合式 agglomerative(bottom-up) and 分裂式divisive(top-down)

  • Single link(min)
  • Complete link(max)
  • Average link

4. 聚合式agglomerative(bottom-up) 实现

  • 计算邻近矩阵
  • 将每个数据点都视为一个簇
  • 重复过程:
    • 合并两个最近的簇
    • 更新邻近矩阵
  • 结束条件: 直到只有一个剩余的簇

5. 分裂式divisive(top-down)实现

  • 首先, 将数据点的距离关系表示为一个邻近图, 生成MST
  • 重复过程:
    • 通过切断MST中的最长边来创建新簇
    • 结束条件: 直到所有的点都被分割为单独的簇
相关推荐
m0_713696368 分钟前
python训练 60天挑战-day31
开发语言·人工智能·python·python学习打卡
riri191917 分钟前
机器学习:逻辑回归
机器学习
yz1.17 分钟前
逻辑回归(二分类)
算法·分类·逻辑回归
deephub21 分钟前
5个开源MCP服务器:扩展AI助手能力,高效处理日常工作
人工智能·深度学习·大语言模型·mcp
Ai野生菌22 分钟前
MCP专题 | 探索MCP服务器世界:增强AI能力的精选推荐
服务器·人工智能·mcp·mcp server
乌旭40 分钟前
去中心化算力池:基于IPFS+智能合约的跨校GPU资源共享平台设计
人工智能·深度学习·架构·去中心化·区块链·智能合约·risc-v
巷9551 小时前
OpenCV阈值处理完全指南:从基础到高级应用
人工智能·opencv·计算机视觉
知舟不叙1 小时前
基于OpenCV的SIFT特征和FLANN匹配器的指纹认证
人工智能·opencv·计算机视觉·sift·指纹认证
liuyang-neu2 小时前
目标检测DINO-DETR(2023)详细解读
人工智能·目标检测·计算机视觉
mingshili2 小时前
[AI算法] LLM训练-构建transformers custom model
算法·大模型·llm