手撕 K-Means

小于不是小鱼呀2025-06-07 19:34

1. K-means 的原理

K-means 是一种经典的无监督学习算法，用于将数据集划分为 kk 个簇（cluster）。其核心思想是通过迭代优化，将数据点分配到最近的簇中心，并更新簇中心，直到簇中心不再变化或达到最大迭代次数。

算法步骤：

初始化： 随机选择 kk 个数据点作为初始簇中心（centroids）。
分配步骤（Assignment Step）： 将每个数据点分配到距离最近的簇中心。
更新步骤（Update Step）： 重新计算每个簇的中心（即簇内所有数据点的均值）。
迭代： 重复步骤 2 和 3，直到簇中心不再变化或达到最大迭代次数。

2. K-means 的公式推导

目标函数

K-means 的目标是最小化所有数据点到其所属簇中心的距离平方和（即误差平方和，SSE）：

其中：

k：簇的数量。
Ci：第 i 个簇。
x：数据点。
μi：第 i 个簇的中心。

分配步骤

将每个数据点 x 分配到距离最近的簇中心：

更新步骤

重新计算每个簇的中心 μi，即簇内所有数据点的均值：

其中 ∣Ci∣ 是第 i 个簇中数据点的数量。

3. 手撕代码实现

下面是用 Python 实现 K-means 算法的代码：

上一篇：JS-- for...in和for...of

下一篇：字节跳动开源图标库：2000+图标一键换肤的魔法

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05AI科技热点日报 | 2026年07月01日 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？07微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 09幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 10CC-Switch & Claude 基于 Linux 服务器安装使用指南