机器学习(西瓜书)第 9 章 聚类

9.1 聚类任务和距离计算

在"无监督学习"中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础.此类学习任务中研究最多、应用最广的是"聚类"(clustering).

聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个"簇"(cluster).通过这样的划分,每个簇可能对应于一些潜在的概念(类别),如 "浅色瓜" "深色瓜","有籽瓜" "无籽瓜",甚至"本地瓜" "外地瓜"等;需说明的是,这些概念对聚类算法而言事先是未知的,聚类过程仅能自动形成簇结构,簇所对应的概念语义需由使用者来把握和命名.

聚类既能作为一个单独过程,用于找寻数据内在的分布结构,也可作为分类等其他学习任务的前驱过程.例如,在一些商业应用中需对新用户的类型进行判别,但定义"用户类型"对商家来说却可能不太容易,此时往往可先对用户数据进行聚类,根据聚类结果将每个簇定义为一个类,然后再基于这些类训练分类模型,用于判别新用户的类型.

基于不同的学习策略,人们设计出多种类型的聚类算法.本章后半部分将对不同类型的代表性算法进行介绍,但在此之前,我们先讨论聚类算法涉及的两个基本问题一一性能度量和距离计算.

对于 连续的 或者 离散且有序的:

对于离散且无序的:

9.2 k-means原型聚类


kmeans算法不太适应的情况:比如一个环形的数据集,有两个簇,就是外面一个环都属于一个类别,里面这个环属于另一个类别,而计算距离的公式如果使用欧式距离,里面这个簇的中心也是外面这个簇的中心,也就是导致两个中心重合,无法区分两个类别样本

因此有了以下改进:

9.3 DBSCAN密度聚类


9.4 AGNES层次聚类

前面两种聚类都和 核心对象 有关,样本才能知道自己属于哪个类,那么其实它们就相当于是一种扁平的结构

如果想在聚类的过程中,去产生这种层次结构的话,就不可以用kmeans和dbscan,需要一种层次聚类的这种算法

层次聚类试图将数据划分成不同的层次,所以聚类的结果是有这种明显的一个树状结构的


相关推荐
企业老板ai培训3 分钟前
从九尾狐AI案例拆解智能矩阵架构:如何用AI获客引擎重构传统企业流量体系
人工智能·矩阵·重构
零售ERP菜鸟3 分钟前
IT年度商业计划书框架(精简版)
大数据·人工智能·职场和发展·创业创新·学习方法·业界资讯
张祥6422889043 分钟前
线性代数本质笔记十二
人工智能·算法·机器学习
乌恩大侠4 分钟前
【AI-RAN 调研】软银株式会社的 “AITRAS” 基于 Arm 架构的 NVIDIA 平台 实现 集中式与分布式 AI-RAN 架构
人工智能·分布式·fpga开发·架构·usrp·mimo
2501_948120158 分钟前
边缘计算与云计算协同的计算卸载策略
人工智能·云计算·边缘计算
aigcapi9 分钟前
2026年跨境运营矩阵系统TOP5测评,客观展现“矩阵系统哪家好?”
大数据·人工智能·矩阵
Σίσυφος190010 分钟前
视觉矩阵 之 单应矩阵
人工智能·算法·矩阵
囊中之锥.10 分钟前
【机器学习实战】词向量 + 朴素贝叶斯实现中文情感分析
人工智能·机器学习
叫我:松哥11 分钟前
基于Flask的心理健康咨询管理与智能分析,集成AI智能对话咨询、心理测评(PHQ-9抑郁量表/GAD-7焦虑量表)、情绪追踪记录、危机预警识别
大数据·人工智能·python·机器学习·信息可视化·数据分析·flask
合新通信 | 让光不负所托15 分钟前
氟化液、矿物油、改性硅油三种冷却液,分别适合搭配什么功率等级的浸没式液冷光模块?
人工智能·安全·云计算·信息与通信·光纤通信