【Python机器学习】凝聚聚类——层次聚类与树状图

凝聚聚类生成了所谓的层次聚类。聚类过程迭代进行,每个点都从一个单点簇变为属于最终的某个簇。每个中间步骤都提供了数据的一种聚类(簇的个数也不相同)。有时候,同时查看所有可能的聚类也是有帮助的。

举例:

python 复制代码
import matplotlib.pyplot as plt
import mglearn.plots

mglearn.plots.plot_agglomerative()
plt.show()

虽然这种可视化为层次聚类提供了非常详细的视图,但它依赖于数据的二维性质,因此不能呢个用于具有两个特征的数据集。但还有另一个层次聚类可视化的工具,那就是树状图,它可以处理多维数据集。

可以利用SciPy生成树状图,SciPy的聚类算法接口与scikit-learn的聚类算法稍有不同。SciPy提供了一个函数,然后接收数组X并计算出一个链接数组,它对层次聚类的相似度进行编码。然后我们就可以将这个链接数组提供给scipy的dendrogram函数来绘制树状图。

python 复制代码
import matplotlib.pyplot as plt
import mglearn.plots
from scipy.cluster.hierarchy import dendrogram,ward
from sklearn.datasets import make_blobs,make_moons


X,y=make_blobs(random_state=0,n_samples=12)
linkage_array=ward(X)
dendrogram(linkage_array)

ax=plt.gca()
bounds=ax.get_xbound()
ax.plot(bounds,[7.25,7.25],'--',c='k')
ax.plot(bounds,[4,4],'--',c='k')

ax.text(bounds[1],7.25,'2',va='center',fontdict={'size':15})
ax.text(bounds[1],4,'3',va='center',fontdict={'size':15})
plt.xlabel('Sample index')
plt.ylabel('Cluster distance')
plt.show()

树状图在底部显示数据点(0到11),然后以这些点作为叶节点绘制一棵树,每合并两个簇就添加一个新的父节点。

从下往上看,数据点1、4首先被合并,接下来,6、9被合并为一个簇,以此类推。

树状图的y轴不仅说明凝聚算法中两个簇合适合并,每个分支的长度还表示被合并的簇之间的距离。在这个树状图中,最长的分支是用标记为'3'的虚线表示。

相关推荐
永远不会的CC1 分钟前
研0上岸找实习面试经历
python·算法·面试
wukangjupingbb2 分钟前
AI驱动药物研发中的单模型幻象
人工智能
l1t4 分钟前
duckdb excel插件和rusty_sheet插件在python中的不同表现
开发语言·python·excel
志栋智能7 分钟前
超自动化巡检的核心价值:效率、质量与洞察
运维·服务器·网络·人工智能·自动化
甲维斯11 分钟前
国产CodingPlan“玩不起”,玩GPT5.5去了!
人工智能·ai编程
数智化精益手记局11 分钟前
4m变更管理实战:拆解4m变更管理四大要素的管控功能与常见难题
大数据·数据结构·数据库·人工智能·精益工程
pele15 分钟前
如何解决多线图中线条颜色不渲染(仅标记和提示框显示颜色)的问题
jvm·数据库·python
2501_9458374317 分钟前
OpenClaw:从 “聊天” 到 “执行”,AI 智能体的破局者
人工智能
DO_Community17 分钟前
无封号焦虑!Claude Code 官方插件 +VS Code ,稳定接入的配置指南
人工智能·vscode·aigc·claude