【Python机器学习】凝聚聚类——层次聚类与树状图

凝聚聚类生成了所谓的层次聚类。聚类过程迭代进行,每个点都从一个单点簇变为属于最终的某个簇。每个中间步骤都提供了数据的一种聚类(簇的个数也不相同)。有时候,同时查看所有可能的聚类也是有帮助的。

举例:

python 复制代码
import matplotlib.pyplot as plt
import mglearn.plots

mglearn.plots.plot_agglomerative()
plt.show()

虽然这种可视化为层次聚类提供了非常详细的视图,但它依赖于数据的二维性质,因此不能呢个用于具有两个特征的数据集。但还有另一个层次聚类可视化的工具,那就是树状图,它可以处理多维数据集。

可以利用SciPy生成树状图,SciPy的聚类算法接口与scikit-learn的聚类算法稍有不同。SciPy提供了一个函数,然后接收数组X并计算出一个链接数组,它对层次聚类的相似度进行编码。然后我们就可以将这个链接数组提供给scipy的dendrogram函数来绘制树状图。

python 复制代码
import matplotlib.pyplot as plt
import mglearn.plots
from scipy.cluster.hierarchy import dendrogram,ward
from sklearn.datasets import make_blobs,make_moons


X,y=make_blobs(random_state=0,n_samples=12)
linkage_array=ward(X)
dendrogram(linkage_array)

ax=plt.gca()
bounds=ax.get_xbound()
ax.plot(bounds,[7.25,7.25],'--',c='k')
ax.plot(bounds,[4,4],'--',c='k')

ax.text(bounds[1],7.25,'2',va='center',fontdict={'size':15})
ax.text(bounds[1],4,'3',va='center',fontdict={'size':15})
plt.xlabel('Sample index')
plt.ylabel('Cluster distance')
plt.show()

树状图在底部显示数据点(0到11),然后以这些点作为叶节点绘制一棵树,每合并两个簇就添加一个新的父节点。

从下往上看,数据点1、4首先被合并,接下来,6、9被合并为一个簇,以此类推。

树状图的y轴不仅说明凝聚算法中两个簇合适合并,每个分支的长度还表示被合并的簇之间的距离。在这个树状图中,最长的分支是用标记为'3'的虚线表示。

相关推荐
血小溅28 分钟前
三大 AI 编码框架深度对比:GSD vs OpenSpec vs Superpowers
人工智能·后端
武子康4 小时前
调查研究-186 LangChain 和 LangGraph 的区别:从快速构建 Agent 到生产级工作流编排
人工智能·langchain·llm
武子康4 小时前
调查研究-185 CodeGraph 调研:给 AI 编程 Agent 一张代码库地图,少一点反复 grep(2026)
人工智能·openai·claude
aqi005 小时前
15天学会AI应用开发(八)使用向量数据库实现RAG功能
人工智能·python·大模型·ai编程·ai应用
Csvn6 小时前
`functools.lru_cache` —— 一行代码搞定缓存加速
后端·python
混沌福王6 小时前
Electron三端统一架构:运行时Adapter、IPC能力边界与分层设计
人工智能·agent·ai编程
说了很好6 小时前
马尔可夫扩散链+损失函数推导,手把手实现原生Diffusion
人工智能
聂二AI落地内参7 小时前
合同抽取别停在 JSON:标准规则和交易日历才是硬仗
人工智能
冬哥聊AI7 小时前
滴滴Agent岗二面:RAG 系统的 LLM 幻觉怎么治?从两类根源讲到四道防线
人工智能