【机器学习】无监督学习算法之:层次聚类

层次聚类

  • 1、引言
  • 2、层次聚类
    • [2.1 定义](#2.1 定义)
    • [2.2 原理](#2.2 原理)
    • [2.3 实现方式](#2.3 实现方式)
    • [2.4 算法公式](#2.4 算法公式)
    • [2.5 代码示例](#2.5 代码示例)
  • 3、总结

1、引言

小屌丝 :鱼哥, 这周末过的滋润啊。
小鱼 :... 每个周末都挺滋润的啊。
小屌丝 :啊~ ~ 你这...
小鱼 :周末加班,岂不滋润?
小屌丝 :加班...
小鱼 :对啊,加班哦。
小屌丝 :你这加班...是在哪里,加什么班? ?
小鱼 :你这...
小屌丝 :难道 ??

小鱼 :你是不是想学习 层次聚类算法? ?
小屌丝 : 啊...这 ...
小鱼 :学不学?
小屌丝 :这个,是学,还是不学??
小鱼 :你说学不学?
小屌丝 :这个... 学吧。
小鱼: 那咱就开始 ~

2、层次聚类

2.1 定义

层次聚类(Hierarchical Clustering)是一种无监督学习算法,用于对数据进行分组或聚类。

不同于K-means等聚类算法,层次聚类可以输出一个层次结构的分组结果,可以从粗到细地描述数据的聚类关系。

2.2 原理

层次聚类的原理是不断合并最相似的样本或子聚类,直到所有样本或子聚类都被合并成一个大的聚类。这个过程可以形象地表示为一个树状结构,称为聚类树(dendrogram)。

在层次聚类中,有两种常见的方法:凝聚式聚类和分裂式聚类

  • 凝聚式聚类(Agglomerative Clustering)从每个样本开始,将最相似的样本或聚类合并在一起,直到所有样本都被合并成一个大的聚类。这个过程中,通过计算样本或聚类之间的相似度来确定最相似的样本或聚类。

  • 分裂式聚类(Divisive Clustering)从一个整体开始,将整个样本或聚类分成若干个子聚类,然后逐步细分子聚类,直到每个样本都成为一个独立的聚类。这个过程中,通过计算样本或聚类内部的差异来确定划分方式。

2.3 实现方式

实现层次聚类算法通常包括以下步骤:

  • 初始化:每个样本点都被视为一个独立的簇。

  • 计算距离矩阵:计算所有样本点之间的距离,形成一个距离矩阵。这个矩阵将用于确定哪些簇应该合并。

  • 合并簇:基于某种链接准则(如单链接、全链接或平均链接),选择距离最近的两个簇进行合并。

  • 更新距离矩阵:随着簇的合并,更新距离矩阵以反映新簇之间的距离。

  • 重复步骤:重复步骤3和4,直到达到预设的簇数量或满足其他停止条件。

在合并簇的过程中,可以选择不同的链接准则,如单链接(Single-linkage)、全链接(Complete-linkage)或平均链接(Average-linkage)等。这些链接准则决定了如何计算簇之间的距离或相似度。

2.4 算法公式

凝聚层次聚类的核心步骤是计算簇之间的距离或相似度。以欧氏距离为例,假设有两个簇(C_i)和(C_j),它们分别包含样本点集合({x_1, x_2, ..., x_m})和({y_1, y_2, ..., y_n}),则簇间距离(d(C_i, C_j))可以使用以下公式计算:

单链接(Single-linkage) : ( d ( C i , C j ) = min ⁡ x ∈ C i , y ∈ C j d ( x , y ) ) (d(C_i, C_j) = \min_{x \in C_i, y \in C_j} d(x, y)) (d(Ci,Cj)=x∈Ci,y∈Cjmind(x,y))
全链接(Complete-linkage) : ( d ( C i , C j ) = max ⁡ x ∈ C i , y ∈ C j d ( x , y ) ) (d(C_i, C_j) = \max_{x \in C_i, y \in C_j} d(x, y)) (d(Ci,Cj)=x∈Ci,y∈Cjmaxd(x,y))
平均链接(Average-linkage) : ( d ( C i , C j ) = 1 m n ∑ x ∈ C i ∑ y ∈ C j d ( x , y ) ) (d(C_i, C_j) = \frac{1}{mn} \sum_{x \in C_i} \sum_{y \in C_j} d(x, y)) (d(Ci,Cj)=mn1x∈Ci∑y∈Cj∑d(x,y))

其中, ( d ( x , y ) ) (d(x, y)) (d(x,y))表示样本点(x)和(y)之间的距离。

2.5 代码示例

python 复制代码
# -*- coding:utf-8 -*-
# @Time   : 2024-03-01
# @Author : Carl_DJ

'''
实现功能:
	使用sklearn库中的AgglomerativeClustering实现层次聚类:

'''

from sklearn.cluster import AgglomerativeClustering
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

# 创建示例数据
X, _ = make_blobs(n_samples=100, n_features=2, centers=3, random_state=42)

# 应用层次聚类
cluster = AgglomerativeClustering(n_clusters=None, linkage='ward')  # 不预设聚类数量,采用 ward 方法
prediction = cluster.fit_predict(X)

# 可视化结果
plt.scatter(X[:, 0], X[:, 1], c=prediction)
plt.title('Hierarchical Clustering')
plt.show()

3、总结

层次聚类是一种简单而直观的无监督学习方法,它通过构建层次结构来组织数据。

不同的链接准则和距离度量方法会影响聚类的结果,因此在实际应用中需要根据数据的特性和需求选择合适的参数。

层次聚类的一个主要优点是能够生成簇的层次结构 ,这有助于理解数据的内在结构和关系。

然而,它也有一些局限性,例如对于大规模数据集的计算效率可能较低,且一旦做出合并决策就无法撤销。

因此,在选择层次聚类时,需要综合考虑其优缺点以及具体应用场景的需求。

我是小鱼

  • CSDN 博客专家
  • 阿里云 专家博主
  • 51CTO博客专家
  • 多个名企认证讲师等
  • 认证金牌面试官
  • 名企签约职场面试培训、职场规划师
  • 多个国内主流技术社区的认证专家博主
  • 多款主流产品(阿里云等)测评一、二等奖获得者

关注小鱼 ,学习机器学习领域的知识。

相关推荐
逝去的秋风4 分钟前
【代码随想录训练营第42期 Day61打卡 - 图论Part11 - Floyd 算法与A * 算法
算法·图论·floyd 算法·a -star算法
zero_one_Machel14 分钟前
leetcode73矩阵置零
算法·leetcode·矩阵
青椒大仙KI111 小时前
24/9/19 算法笔记 kaggle BankChurn数据分类
笔记·算法·分类
^^为欢几何^^1 小时前
lodash中_.difference如何过滤数组
javascript·数据结构·算法
豆浩宇1 小时前
Halcon OCR检测 免训练版
c++·人工智能·opencv·算法·计算机视觉·ocr
浅念同学1 小时前
算法.图论-并查集上
java·算法·图论
何不遗憾呢1 小时前
每日刷题(算法)
算法
立志成为coding大牛的菜鸟.1 小时前
力扣1143-最长公共子序列(Java详细题解)
java·算法·leetcode
鱼跃鹰飞1 小时前
Leetcode面试经典150题-130.被围绕的区域
java·算法·leetcode·面试·职场和发展·深度优先
liangbm31 小时前
数学建模笔记——动态规划
笔记·python·算法·数学建模·动态规划·背包问题·优化问题