CAU数据挖掘 第五章 聚类问题

基本概念

性质:

应用:

划分聚类

k-means算法( 基于质心的技术)


优缺点

改进

k-medoids算法( 基于代表对象的技术)

PAM是 k-medoids算法 的算法之一

性能分析:

CLARA方法-大数据集合-取样

层次聚类算法

通过建树或者拆树的方法进行聚类

AGNES算法

由下而上的聚类

DIANA算法

如果要分出k个聚类,则每次从旧聚类(最开始的大聚类)中选出中心点进行聚类,选k - 1次

BIRCH算法

提取每个点的聚类特征( Clustering Feature, CF)建立聚类特征树( Clustering Feature Tree, CF树),通过树划分的叶子节点簇进行聚类,从而提高性能。

CF树:

注意,叶子结点是CF簇

如何建树:

如何分裂:

叶节点阈值(T)为3,则下图中叶节点分裂

内部节点阈值(L)为3,图中为4,发生分裂

密度聚类

只要邻近区域的密度( 对象或数据点的数目) 超过某个阀值, 就把它加到与之相近的聚类中。

也就是说, 对给定类中的每个数据点, 在一个给定范围的区域中必须至少包含某个数目的点。

DBSCAN

几个重要概念:



算法流程:

缺点:

  • 对参数敏感,设置不同的参数,聚类效果差异大
  • 只能发现密度相似的类

OPTICS算法

通过点排序识别聚类结构。

思想:计算一个点周围的点到这个点的可达距离,并进行排序,直到算完所有可以到达的点;再用没有计算的点计算周围可以到达的点的距离,如此重复直到所有点算完。

核心距离与可达距离

距离排序



将排序后的队列进行数据可视化:

DENCLUE算法: 影响函数

网格聚类

STING算法-统计信息网格

WaveCluster算法


流程:


模型聚类

模型聚类主要有两类: 统计学方法( EM和COBWEB算法) 和神经网络方法( SOM算法) 。

EM算法

COBWEB算法

SOM算法

模糊聚类

聚类估计

估计聚类趋势

霍普金斯统计量

即判断数据是否可聚类

计算原理:

可以看到当样本点与实际点距离很短,均匀点与实际点很远时,H偏大,数据集更又可能聚类。

确定簇数

简单的经验方法

肘方法

测定聚类质量

相关推荐
皮皮学姐分享-ppx2 分钟前
1447上市公司数字化转型速度的计算(2000-2022年)
大数据·人工智能
张二娃同学9 分钟前
Claude Code 使用教程:下载安装、CC Switch 配置、MiniMax API 获取与启动实操
人工智能·windows·深度学习·github·claude code
yitian_hm10 分钟前
RAG实战:从原理到代码,构建企业级知识库问答系统
人工智能
AI品信智慧数智人11 分钟前
文旅景区小程序集成数字人智能语音交互系统,山东品信解锁AI伴游新玩法✨
人工智能·小程序
Rick199312 分钟前
LangChain和spring ai是什么关系?
人工智能·spring·langchain
AI创界者14 分钟前
【首发】LTX-2.3-VBVR 增强版发布:8G 显存解锁无限时长,视频一致性与运动精度跨越式升级!
人工智能
枫叶林FYL20 分钟前
【Python高级工程与架构实战】项目四:生产级LLM Agent框架:基于PydanticAI的类型安全企业级实现
人工智能·python·自然语言处理
feasibility.23 分钟前
OpenClaw+LibTV视频生成实测(含安装+配置+分析):ai生成工作流很规范,但画面在“打架“
人工智能·aigc·音视频·内容运营·短剧·openclaw·libtv
I_Am_Zou30 分钟前
cloneman-ai技术解析:可落地的AI数字分身平台设计与实现
人工智能
老刘干货31 分钟前
Prompt工程全解·第二篇:骨架搭建——构建高可用Prompt的“四要素”模型
人工智能·技术人