无监督学习中的经典聚类算法——K-Means笔记

一、无监督学习中的经典聚类算法------K-Means

  • 目的:在没有标签的情况下,把"相似样本"自动分到同一组,用于数据探索、分群、压缩、异常检测等场景

二、核心概念

  1. 聚类(Clustering)

    -- 无监督:没有 y 标签

    -- 目标:高内聚、低耦合

  2. 难点

    -- 如何评估好坏?

    -- 如何选取参数(主要是 K)?

三、距离度量(先选"像不像"的尺子)

  • 欧式距离(L2):多维直线距离,最常用

  • 曼哈顿距离(L1):坐标轴绝对轴距之和,适合高维稀疏

四、K-Means 算法流程("三步走")

  1. 随机选 K 个初始中心

  2. 分配:每个样本→距其最近的中心所属簇

  3. 更新:重新计算各簇中心(均值)

    循环 2-3 步直到中心不再移动或达到 max_iter

五、评估指标

  • SSE(类内平方和):越小越紧凑

  • CH 指数:同时衡量类内紧密度与类间分离度,越大越好

  • 轮廓系数(Silhouette):[-1,1],>0.5 通常可接受

六、优缺点速记

优点:

✓ 原理简单、实现容易、速度快、可并行

缺点:

✗ K 值需事先给定

✗ 对初值敏感(随机初始中心)

✗ 只能发现"球形"簇,对任意形状、密度差异大数据表现差

✗ 对异常值/噪声敏感

七、关键超参数

  • n_clusters(K):簇的数量

  • max_iter:最大迭代次数

  • n_init:随机运行次数,取最好结果

  • random_state:随机种子,复现实验

相关推荐
摇滚侠22 分钟前
Spring Boot3零基础教程,为什么有Reactive-Stream 规范,响应式编程,笔记101
java·spring boot·笔记
TL滕1 小时前
从0开始学算法——第一天(认识算法)
数据结构·笔记·学习·算法
YuforiaCode1 小时前
神领物流v2.0-day3-运费微服务笔记(个人记录、含练习答案、仅供参考)
笔记
zhangrelay2 小时前
如何使用AI快速编程实现标注ROS2中sensor_msgs/msg/Image图像色彩webots2025a
人工智能·笔记·opencv·学习·计算机视觉·机器人视觉
m0_598250002 小时前
电源完整性07-如何确定PDN网络中的大电容
笔记·单片机·嵌入式硬件·硬件工程
摇滚侠3 小时前
Spring Boot3零基础教程,Reactive-Stream 规范核心接口,笔记103
java·spring boot·笔记
!!!!!!!!!!!!!!!!.4 小时前
CTF WEB入门 命令执行篇29-49
笔记·安全
bnsarocket5 小时前
Verilog和FPGA的自学笔记8——按键消抖与模块化设计
笔记·fpga开发·verilog·自学·硬件编程
TL滕5 小时前
从0开始学算法——第一天(如何高效学习算法)
数据结构·笔记·学习·算法
仰望—星空6 小时前
MiniEngine学习笔记 : CommandAllocatorPool
笔记·学习