机器学习Day10:聚类

一飞学编程2024-07-07 11:10

概念

聚类是按照某个特定标准把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性尽可能大

聚类的过程

数据准备：特征标准化和降维
特征选择：从最初的特征中选择最有效的特征，并将其存储在向量中
特征提取：通过对选择的特征进行转换形成新的突出特征
聚类：基于某种距离函数 进行相似度度量，获取簇
聚类结果评估：分析聚类结果，如距离误差和等

聚类方法

1.划分类聚类方法

代表：k-means算法

基本思想：对于给定的类别数据k首先给出初始划分 ，通过迭代改变样本和簇的隶属关系，使得每一次改进后的划分方法都比前一次更好

优点：简单快速；当簇近似于高斯分布时效果好

缺点：在簇的平均值 可被定义时才能使用；对初值敏感

2.层次聚类方法 ：对给定的数据集进行层次的分解 ，直到满足某种条件为止

如下图所示，由于a、b某特征有相似之处，将他们聚类一类，以此类推

特征：对噪声敏感

3.基于密度的聚类方法

典型算法：DBSCAN算法

特点：抗噪效果好；性能一般

聚类算法效果评判

均一性：聚类结果的一致性或者稳定性
完整性：聚类结果 与真实类别或标签之间的一致性
V-measure:综合考虑了均一性 和完整性
ARI：比较了聚类结果与真实类别之间的一致性，考虑了分类中的随机性因素
AMI：聚类结果与真实类别之间的一致性，同时考虑了类别分布的随机性
轮廓系数：结合了聚类的紧密度（密度）和分离度（分散度）

上一篇：【云原生】Kubernetes部署高可用平台手册

下一篇：筛选Github上的一些优质项目

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 03国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）042026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 05微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 09AI科技热点日报 | 2026年07月01日 102026 年 AI 大模型 & AI 编程工具实战全总结