无监督学习中的经典聚类算法——K-Means笔记

鲸鱼24012025-08-26 17:04

一、无监督学习中的经典聚类算法------K-Means

目的：在没有标签的情况下，把"相似样本"自动分到同一组，用于数据探索、分群、压缩、异常检测等场景

二、核心概念

聚类（Clustering）

-- 无监督：没有 y 标签

-- 目标：高内聚、低耦合
难点

-- 如何评估好坏？

-- 如何选取参数（主要是 K）？

三、距离度量（先选"像不像"的尺子）

欧式距离（L2）：多维直线距离，最常用
曼哈顿距离（L1）：坐标轴绝对轴距之和，适合高维稀疏

四、K-Means 算法流程（"三步走"）

随机选 K 个初始中心
分配：每个样本→距其最近的中心所属簇
更新：重新计算各簇中心（均值）

循环 2-3 步直到中心不再移动或达到 max_iter

五、评估指标

SSE（类内平方和）：越小越紧凑
CH 指数：同时衡量类内紧密度与类间分离度，越大越好
轮廓系数（Silhouette）：[-1,1]，>0.5 通常可接受

六、优缺点速记

优点：

✓ 原理简单、实现容易、速度快、可并行

缺点：

✗ K 值需事先给定

✗ 对初值敏感（随机初始中心）

✗ 只能发现"球形"簇，对任意形状、密度差异大数据表现差

✗ 对异常值/噪声敏感

七、关键超参数

n_clusters（K）：簇的数量
max_iter：最大迭代次数
n_init：随机运行次数，取最好结果
random_state：随机种子，复现实验

上一篇：前端 vs 后端请求：核心差异与实战对比

下一篇：如何用labelimg标注yolo数据集，并利用工具自动划分数据集

热门推荐

01GitHub 镜像站点 02综合整理：pdf预览显示：你尝试预览的文件可能对你的计算机有害。如果你信任此文件以及其来源，请打开此文件以看其内容，如何解决以正常预览文件 03UV安装并设置国内源 04npm使用国内淘宝镜像的方法 05Linux下V2Ray安装配置指南 06《大数据技术原理与应用》实验报告三熟悉HBase常用操作 07BongoCat - 跨平台键盘猫动画工具 08NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 09GitLab 零基础入门指南：从安装到项目管理全流程 10安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）