CAU数据挖掘第五章聚类问题

麻雀无能为力2025-07-16 20:46

基本概念

性质：

应用：

划分聚类

k-means算法（基于质心的技术）

优缺点

改进

k-medoids算法（基于代表对象的技术）

PAM是 k-medoids算法的算法之一

性能分析：

CLARA方法-大数据集合-取样

层次聚类算法

通过建树或者拆树的方法进行聚类

AGNES算法

由下而上的聚类

DIANA算法

如果要分出k个聚类，则每次从旧聚类（最开始的大聚类）中选出中心点进行聚类，选k - 1次

BIRCH算法

提取每个点的聚类特征（ Clustering Feature， CF）建立聚类特征树（ Clustering Feature Tree， CF树），通过树划分的叶子节点簇进行聚类，从而提高性能。

CF树：

注意，叶子结点是CF簇

如何建树：

如何分裂：

叶节点阈值（T）为3，则下图中叶节点分裂

内部节点阈值（L）为3，图中为4，发生分裂

密度聚类

只要邻近区域的密度（对象或数据点的数目）超过某个阀值，就把它加到与之相近的聚类中。

也就是说，对给定类中的每个数据点，在一个给定范围的区域中必须至少包含某个数目的点。

DBSCAN

几个重要概念：

算法流程：

缺点：

对参数敏感，设置不同的参数，聚类效果差异大
只能发现密度相似的类

OPTICS算法

通过点排序识别聚类结构。

思想：计算一个点周围的点到这个点的可达距离，并进行排序，直到算完所有可以到达的点；再用没有计算的点计算周围可以到达的点的距离，如此重复直到所有点算完。

核心距离与可达距离

距离排序

将排序后的队列进行数据可视化：

DENCLUE算法：影响函数

网格聚类

STING算法-统计信息网格

WaveCluster算法

流程：

模型聚类

模型聚类主要有两类：统计学方法（ EM和COBWEB算法）和神经网络方法（ SOM算法）。

EM算法

COBWEB算法

SOM算法

模糊聚类

聚类估计

估计聚类趋势

霍普金斯统计量

即判断数据是否可聚类

计算原理：

可以看到当样本点与实际点距离很短，均匀点与实际点很远时，H偏大，数据集更又可能聚类。

确定簇数

简单的经验方法

肘方法

测定聚类质量

上一篇：Kiro vs Cursor：2025年AI编程IDE深度对比

下一篇：MongoDB性能优化实战指南：原理、实践与案例

热门推荐

01BongoCat - 跨平台键盘猫动画工具 02GitHub 镜像站点 03两千字总结：Codex 国内如何安装和使用的教程，以及如何设置中文回答 04UV安装并设置国内源 05Linux下V2Ray安装配置指南 06GitLab 零基础入门指南：从安装到项目管理全流程 0746个Nano-banana 精选提示词，持续更新中 08在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）09windows找不到gpedit.msc（本地组策略编辑器）10KGG转MP3工具|非KGM文件|解密音频