【Python机器学习】凝聚聚类——层次聚类与树状图

凝聚聚类生成了所谓的层次聚类。聚类过程迭代进行,每个点都从一个单点簇变为属于最终的某个簇。每个中间步骤都提供了数据的一种聚类(簇的个数也不相同)。有时候,同时查看所有可能的聚类也是有帮助的。

举例:

python 复制代码
import matplotlib.pyplot as plt
import mglearn.plots

mglearn.plots.plot_agglomerative()
plt.show()

虽然这种可视化为层次聚类提供了非常详细的视图,但它依赖于数据的二维性质,因此不能呢个用于具有两个特征的数据集。但还有另一个层次聚类可视化的工具,那就是树状图,它可以处理多维数据集。

可以利用SciPy生成树状图,SciPy的聚类算法接口与scikit-learn的聚类算法稍有不同。SciPy提供了一个函数,然后接收数组X并计算出一个链接数组,它对层次聚类的相似度进行编码。然后我们就可以将这个链接数组提供给scipy的dendrogram函数来绘制树状图。

python 复制代码
import matplotlib.pyplot as plt
import mglearn.plots
from scipy.cluster.hierarchy import dendrogram,ward
from sklearn.datasets import make_blobs,make_moons


X,y=make_blobs(random_state=0,n_samples=12)
linkage_array=ward(X)
dendrogram(linkage_array)

ax=plt.gca()
bounds=ax.get_xbound()
ax.plot(bounds,[7.25,7.25],'--',c='k')
ax.plot(bounds,[4,4],'--',c='k')

ax.text(bounds[1],7.25,'2',va='center',fontdict={'size':15})
ax.text(bounds[1],4,'3',va='center',fontdict={'size':15})
plt.xlabel('Sample index')
plt.ylabel('Cluster distance')
plt.show()

树状图在底部显示数据点(0到11),然后以这些点作为叶节点绘制一棵树,每合并两个簇就添加一个新的父节点。

从下往上看,数据点1、4首先被合并,接下来,6、9被合并为一个簇,以此类推。

树状图的y轴不仅说明凝聚算法中两个簇合适合并,每个分支的长度还表示被合并的簇之间的距离。在这个树状图中,最长的分支是用标记为'3'的虚线表示。

相关推荐
2201_7548647828 分钟前
学习日记(2026年3月23日)
学习
LJ979511130 分钟前
告别通稿地狱:Infoseek用工程思维重构媒介宣发
人工智能
互联网江湖31 分钟前
快手营收利润双增,可灵AI会不会成为第二个Seedance?
大数据·人工智能
菜包eo36 分钟前
Kingsway Ultra:从视频到 AI,出海企业完整解决方案
人工智能·外贸b2b·外贸独立站·openclaw·kingwayvideo·视频营销
pp起床1 小时前
Part03:设计提示的通用技巧
人工智能
pp起床1 小时前
Part02:基本概念以及基本要素
大数据·人工智能·算法
landuochong2001 小时前
OpenClaw 架构文档
人工智能·架构·openclaw
dulu~dulu1 小时前
算法---寻找和为K的子数组
笔记·python·算法·leetcode
Tony Bai2 小时前
告别古法编程黄金时代:AI 时代不会再有新编程语言诞生的土壤
人工智能
cxr8282 小时前
OpenClaw与NetLogo之间的调用与数据交互机制
人工智能·交互·netlogo·openclaw