TomatoSCI分析日记——K均值聚类

上一篇文章讲了层次聚类,今天再来说一下K均值(K-mean)聚类。虽然说目的都是为了聚类,但是他们的原理和展示方式都截然不同。其工作原理是K均值聚类的核心原理是:先指定要分成K类,然后通过迭代优化,让每个点归到离它最近的类中心,最后让类中心尽可能地代表这一类的数据点。

01 K均值聚类示例

在图1示例数据中,每一列为一个特征,是聚类计算的依据;每行为一个样本,需要对它们进行分类。

图2是轮廓系数,轮廓系数用于评估每个簇数的聚类质量,越高质量越好。

图3是K均值聚类结果,与层次聚类不同,K均值聚类采用展示方法的是降维散点图。

图4则展示了每个样品的聚类归属。

02 K均值聚类和层次聚类孰优孰劣?

K均值聚类的优点:效率高,速度快,适用于大样本数据,特别是当样本数量上千上万时,K均值能迅速完成聚类,适合大规模聚类。

K均值聚类的局限:必须自己设定聚类簇数,就像文中我们选取了轮廓系数最高的簇数;想要追踪样品归属的类别需要输出结果文件。

层次聚类的优点:层次可以不设定聚类数(也可以事先设定),首先生成一整棵树状图(dendrogram),你可以之后再决定切成几类,灵活性更高;可以观察到样本之间的聚类的过程以及具体归属,适合小样本精细分组分析。

层次聚类聚类的局限:不适合大规模数据集,当数据太多时,树状图展示的可读性就变得十分差。

03 如何选择聚类方法?

思考这三个问题,可以帮你快速决策:

一、数据量大吗?

大量样本 → 优先考虑K均值;

小数据、讲究解释性 → 可选层次聚类;

二、你是否希望保留层级结构信息?

如果你关心"谁和谁最像"、"谁是后来才分开的" → 层次聚类更合适。

三、你知道应该分几类吗?

知道 → K均值更快捷;

不知道 → 层次聚类搭配树状图更直观。

当然,无论哪种方法,轮廓系数都是一个推荐的聚类质量评价指标,可以辅助选择最合适的簇数。

TomatoSCI科研数据分析平台,欢迎大家来访!数据分析无需登录,专业在线客服答疑,还可在线传输文件,五折优惠码"tomatosci"开放使用中。PCA、RDA、PCoA、层次聚类等方法等你就位。

相关推荐
人大博士的交易之路3 小时前
今日行情明日机会——20251113
大数据·数据挖掘·数据分析·缠论·道琼斯结构·涨停板
B站计算机毕业设计之家3 小时前
基于Python+Django+双协同过滤豆瓣电影推荐系统 协同过滤推荐算法 爬虫 大数据毕业设计(源码+文档)✅
大数据·爬虫·python·机器学习·数据分析·django·推荐算法
Brduino脑机接口技术答疑5 小时前
支持向量机(SVM)在脑电情绪识别中的学术解析与研究进展
人工智能·算法·机器学习·支持向量机·数据分析
谅望者6 小时前
数据分析笔记04:抽样方法与抽样分布
数据库·笔记·数据挖掘·数据分析
欢聚赢销CRM7 小时前
从“各自为战“到“数据协同“:销采一体化CRM正在重构供应链竞争力
大数据·人工智能·重构·数据分析
一晌小贪欢14 小时前
【Python数据分析】数据分析与可视化
开发语言·python·数据分析·数据可视化·数据清洗
@HNUSTer1 天前
基于 GEE 利用 WorldPop 数据集批量导出 100 米分辨率人口影像数据与时序分析
数据分析·云计算·数据集·遥感大数据·gee·云平台·worldpop
Tiger Z1 天前
R 语言科研绘图第 83 期 --- 3D折线图-渐变
r语言·论文·科研·绘图·研究生
谅望者1 天前
数据分析笔记02:数值方法
大数据·数据库·笔记·数据挖掘·数据分析
追风少年ii1 天前
脚本复习--高精度空转(Xenium、CosMx)的细胞邻域分析(R版本)
python·数据分析·空间·单细胞