【机器学习】第10章 聚类算法

一、概念

1.聚类

(1)是无监督学习,其实无监督学习就是无中生有,不给你标准答案(标签啊啥的),然后让你自己来。

(2)聚类就是这样,让机器自己根据相似特征把相似的东西放到一块。

(3)聚类就是将集合划分成由类(相)似的对象组成的多个类的过程。

聚类分析是研究(样品或指标)分类问题的一种统计分析方法。

(4)概念:

聚类是把各不相同的个体分割为有更多相似性子集合的工作,聚类生成的子集合称为簇(cluster)。

(5)聚类的要求

生成的簇内部的任意两个对象之间具有较高的相似度,于不同簇的两个对象间具有较高的相异度。

其中度量就用前面学习的欧氏距离,曼哈顿距离等进行测量。

(6)聚类的好坏不存在绝对标准

如扑克牌可以按花色分,也可以按数字分,具体情况具体分析。

(7)聚类与分类的区别:

聚类所要求划分的类是未知的,是无意识的,一般把它理解为无监督学习。

而分类算法是有训练样本的,属于监督学习。

(下面图,先是分类,后是聚类,可以很明显的看出标签的提示)

2.K-Means聚类算法

由聚类思想脱胎而生的nb算法之一。

(1)其中K代表要求划分成K个簇,means是均值的意思,也就是说每个簇的中心点是该簇中所有点的均值。

(2)保证每个簇必须包含一个对象,也要保证每个对象有且仅属于一个簇。

(3)流程:

a.随机选择k个点作为初始的聚类中心,注意这些点它可以是样本得到点,也可以不是。

b.对于剩下的点,根据其与聚类中心的距离,将其归入最近的族。

c.对每个族,计算所有点的均值作为新的聚类中心,注意这个点是产生出来的。

d.重复2、3直到聚类中心不再发生改变

(整个过程类似蠕动,中心点不断蠕动,直到发现好的地方)

(4)局限性:

a.图像过于抽象,平均值不靠谱

b.数据量过大是,收敛缓慢

(5)聚类分析的度量指标

a.外部指标:指用事先指定的聚类模型作为参考来评判聚类结果的好坏

b.内部指标:是指不借助任何外部参考,只用参与聚类的样本评判聚类结果好坏

二、习题

多选题:

  1. 聚类的宗旨是(BD)

A、类内距离最大化

B、类间距离最大化

C、类间距离最小化

D、类内距离最小化

判断题:

  1. 聚类的目的是对样本集合进行自动分类,以发掘数据中隐藏的信息、结构,从而发现可能的商业价值。 ( T)
相关推荐
_妲己16 小时前
SD的细分功能包括重绘,图像处理、放大等扩散模型应用
人工智能·python·深度学习·机器学习·stable diffusion·comfyui·ai工作流
程途拾光15816 小时前
企业组织架构图导出Word 在线编辑免费工具
大数据·论文阅读·人工智能·信息可视化·架构·word·流程图
AI浩16 小时前
MODA:首个用于航空图像中多光谱目标检测的挑战性基准
人工智能·目标检测·目标跟踪
小热茶16 小时前
浮点数计算专题【五、 IEEE 754 浮点乘法算法详解---基于RISCV的FP32乘法指令在五级流水线的运行分析与SystemC实现】
人工智能·嵌入式硬件·算法·systemc
一只乔哇噻16 小时前
java后端工程师+AI大模型开发进修ing(研一版‖day63)
java·开发语言·人工智能·python·语言模型
Giser探索家16 小时前
卫星遥感数据核心参数解析:空间分辨率与时间分辨率
大数据·图像处理·人工智能·深度学习·算法·计算机视觉
微盛企微增长小知识16 小时前
2025企业微信智能表格使用全指南:AI驱动的数据管理实战
大数据·人工智能·企业微信
分布式存储与RustFS16 小时前
MinIO替代方案精选:RustFS深度评测与选型指南
人工智能·rust·开源项目·对象存储·minio·企业存储·rustfs
2501_9272835816 小时前
全程自动化:智慧工厂的物流协奏新篇章
运维·人工智能·自动化·制造·agv
不会计算机的g_c__b16 小时前
AutoGPT 深度解析:告别提示工程,迎接自主 AI 代理时代
人工智能