【Python机器学习】凝聚聚类——层次聚类与树状图

凝聚聚类生成了所谓的层次聚类。聚类过程迭代进行,每个点都从一个单点簇变为属于最终的某个簇。每个中间步骤都提供了数据的一种聚类(簇的个数也不相同)。有时候,同时查看所有可能的聚类也是有帮助的。

举例:

python 复制代码
import matplotlib.pyplot as plt
import mglearn.plots

mglearn.plots.plot_agglomerative()
plt.show()

虽然这种可视化为层次聚类提供了非常详细的视图,但它依赖于数据的二维性质,因此不能呢个用于具有两个特征的数据集。但还有另一个层次聚类可视化的工具,那就是树状图,它可以处理多维数据集。

可以利用SciPy生成树状图,SciPy的聚类算法接口与scikit-learn的聚类算法稍有不同。SciPy提供了一个函数,然后接收数组X并计算出一个链接数组,它对层次聚类的相似度进行编码。然后我们就可以将这个链接数组提供给scipy的dendrogram函数来绘制树状图。

python 复制代码
import matplotlib.pyplot as plt
import mglearn.plots
from scipy.cluster.hierarchy import dendrogram,ward
from sklearn.datasets import make_blobs,make_moons


X,y=make_blobs(random_state=0,n_samples=12)
linkage_array=ward(X)
dendrogram(linkage_array)

ax=plt.gca()
bounds=ax.get_xbound()
ax.plot(bounds,[7.25,7.25],'--',c='k')
ax.plot(bounds,[4,4],'--',c='k')

ax.text(bounds[1],7.25,'2',va='center',fontdict={'size':15})
ax.text(bounds[1],4,'3',va='center',fontdict={'size':15})
plt.xlabel('Sample index')
plt.ylabel('Cluster distance')
plt.show()

树状图在底部显示数据点(0到11),然后以这些点作为叶节点绘制一棵树,每合并两个簇就添加一个新的父节点。

从下往上看,数据点1、4首先被合并,接下来,6、9被合并为一个簇,以此类推。

树状图的y轴不仅说明凝聚算法中两个簇合适合并,每个分支的长度还表示被合并的簇之间的距离。在这个树状图中,最长的分支是用标记为'3'的虚线表示。

相关推荐
不加辣椒26 分钟前
第15章 上下文窗口管理与长文本策略
人工智能
牛奶1 小时前
AI 能赚钱了——但赚的不是你
人工智能·ai编程·nvidia
凌杰2 小时前
AI 学习笔记:研究方法的演变
人工智能
半盏药香2 小时前
由于jinja2的starlette版本过高引发的问题:500 Server Error TypeError: unhashable type: 'dict'
人工智能
阿里云大数据AI技术2 小时前
MiniMax M3、Kimi K2.7 Code来啦!PAI已支持一键部署,开源前沿触手可及
人工智能·agent
百度Geek说2 小时前
AI Coding 的底层框架:一切优化都是在对抗熵增
人工智能
Java研究者2 小时前
AI智能体研发 | 什么是OpenAI API协议
人工智能·大模型·openai·api·agent·智能体
只是没名字3 小时前
Codex CLI Windows 新手安装教程:从 Node.js 到首次运行
人工智能
用户8630652696133 小时前
Krea 2 LoRA 训练全流程踩坑记录:从打标到双卡并行的 Windows 原生实战
人工智能
木雷坞5 小时前
让 AI 编程助手跑得起项目:Dev Container 实践记录
人工智能