机器学习--K-Means

K均值聚类

算法过程

K − m e a n s K-means K−means 是 聚类 c l u s t e r i n g clustering clustering 算法的一种,就是给你一坨东西,让你给他们分类:

我们的 K − m e a n s K-means K−means 大概是这样一个流程:

  1. 第一步随机生成两个点(因为这里我想分两类,你想分几类你就弄几个点),标记为两个聚类中心 c l u s t e r    c e n t r i o d cluster \; centriod clustercentriod,像这样:
  1. 然后重复以下两个步骤:

1. 遍历每个点 x ( i ) x^{(i)} x(i),分别计算点 x ( i ) x^{(i)} x(i) 到两个聚类中心的距离 d 1 d_1 d1 和 d 2 d_2 d2,然后比较大小。并标记这个点为距离更小的那一类

2. 分别遍历同一类的所有点,计算这些点的几何平均位置,并把聚类中心移动到这个位置

这样说起来可能很抽象,我们还是用图像来更清晰的表示一下这个过程:

图画到这里我们就能明显的观察到两个聚类已经被划分好了。

优化目标函数

像前面介绍的线性回归、逻辑回归、 S V M SVM SVM 一样,这里的 K − m e a n s K-means K−means 也有一个用于优化的函数:

n o t a t i o n notation notation: c i c_i ci 表示点 x i x_i xi 的类别, μ k \mu_k μk 表示聚类中心 k k k, μ c i \mu_{c_i} μci 表示 x i x_i xi 所属的那个聚类中心

J ( c 1 , ⋯   , c m , μ 1 , ⋯   , μ K ) = 1 m ∑ i = 1 m ∣ x i − μ c i ∣ 2 J(c_1, \cdots, c_m, \mu_1, \cdots, \mu_K) = \frac{1}{m}\sum_{i = 1}^m |x_i - \mu_{c_i}|^2 J(c1,⋯,cm,μ1,⋯,μK)=m1i=1∑m∣xi−μci∣2

我们要做的就是:

min ⁡ c , μ J ( c 1 , ⋯   , c m , μ 1 , ⋯   , μ K ) \min\limits_{c, \mu} J(c_1, \cdots, c_m, \mu_1, \cdots, \mu_K) c,μminJ(c1,⋯,cm,μ1,⋯,μK)

看得出来,这就是要最小化所有点 x i x_i xi 与其所属的聚类中心 μ x i \mu_{x_i} μxi 的距离的平方和。

跑 114514 114514 114514次 k − m e a n s k-means k−means

可能你也注意到了,我们如果只跑一遍 k − m e a n s k-means k−means 的话可能不会得到一个很好的分类方案,所以我们考虑每次随机初始化聚类中心,然后跑很多遍(取决于你的数据规模和时间) k − m e a n s k-means k−means,对于每次计算出来的 c , μ c, \mu c,μ 算出它的 J ( c , μ ) J(c, \mu) J(c,μ),然后在其中选择 J ( c , μ ) J(c, \mu) J(c,μ) 最小的那个分类方案作为最后的答案。

相关推荐
小白狮ww10 分钟前
RStudio 教程:以抑郁量表测评数据分析为例
人工智能·算法·机器学习
沧海一粟青草喂马31 分钟前
抖音批量上传视频怎么弄?抖音矩阵账号管理的专业指南
大数据·人工智能·矩阵
demaichuandong33 分钟前
详细讲解锥齿轮丝杆升降机的加工制造工艺
人工智能·自动化·制造
理智的煎蛋1 小时前
CentOS/Ubuntu安装显卡驱动与GPU压力测试
大数据·人工智能·ubuntu·centos·gpu算力
知来者逆1 小时前
视觉语言模型应用开发——Qwen 2.5 VL模型视频理解与定位能力深度解析及实践指南
人工智能·语言模型·自然语言处理·音视频·视觉语言模型·qwen 2.5 vl
IT_陈寒1 小时前
Java性能优化:10个让你的Spring Boot应用提速300%的隐藏技巧
前端·人工智能·后端
Android出海1 小时前
Android 15重磅升级:16KB内存页机制详解与适配指南
android·人工智能·新媒体运营·产品运营·内容运营
cyyt1 小时前
深度学习周报(9.1~9.7)
人工智能·深度学习
聚客AI1 小时前
🌸万字解析:大规模语言模型(LLM)推理中的Prefill与Decode分离方案
人工智能·llm·掘金·日新计划
max5006001 小时前
图像处理:实现多图点重叠效果
开发语言·图像处理·人工智能·python·深度学习·音视频