【漫话机器学习系列】269.K-Means聚类算法（K-Means Clustering）

一、K-Means 聚类算法简介

K-Means 是一种基于距离的无监督机器学习算法，属于聚类算法（Clustering Algorithm） 。它的目标是将数据集划分为 K 个不重叠的子集（簇），使得每个子集中的数据点尽可能相似，而不同子集之间的数据点差异尽可能大。

由于其实现简单、效率高，被广泛应用于市场细分、图像压缩、社群发现、推荐系统等领域。

二、K-Means 算法原理（图解步骤）

我们先看一张图，了解 K-Means 的基本执行流程：

图源：Chris Albon

该图将 K-Means 的核心过程总结为四个步骤：

Step 1：随机初始化 K 个中心点

选择 K 个初始的聚类中心（Centroids），一般是从样本中随机挑选。K 值需要事先指定，不同的 K 值会产生不同的聚类效果。

初始中心点的选择会对最终聚类结果产生影响，K-Means++ 是一种改进的初始化方法。

Step 2：将每个样本分配到最近的中心点

对于每一个样本点，计算其与所有 K 个中心点的距离（常用欧几里得距离），并将其归入最近的中心所代表的簇。

这是"聚类"的过程，形成 K 个子集。

Step 3：更新中心点位置

对于每个簇，重新计算其所有样本的几何中心（均值），作为新的中心点。

新的中心点就是该簇中所有点坐标的平均值。

Step 4：重复步骤 2 和 3，直到收敛

不断重复样本分配（Step 2）和中心更新（Step 3） ，直到没有样本发生簇变更，或者中心点变化非常小（小于阈值），即认为算法收敛。

K-Means 会在有限次迭代后停止，通常收敛较快。

三、K-Means 算法实现（伪代码）

python 复制代码

def kmeans(X, K):
    初始化 K 个中心点（可以随机选取）
    while 中心点未收敛:
        将每个样本分配给最近的中心点
        重新计算每个簇的中心点
    return 各个簇及其中心点

你可以使用 sklearn.cluster.KMeans 模块直接调用实现：

python 复制代码

from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters=3, random_state=0).fit(X)
labels = kmeans.labels_  # 每个样本所属簇
centers = kmeans.cluster_centers_  # 中心点

四、K 值选择方法

K 值对聚类质量影响极大。常见的确定方法包括：

肘部法则（Elbow Method）：绘制误差平方和 SSE 与 K 的关系图，寻找"拐点"；
轮廓系数（Silhouette Score）：评估聚类的紧密度与分离度；
Gap Statistic：与参考模型比较聚类效果。

五、优缺点总结

优点	缺点
实现简单，计算效率高	需手动指定 K 值
适合大规模数据	对初始中心敏感
可解释性强	只适用于凸形聚类，不能处理非线性边界

六、应用场景示例

客户群体划分（市场营销）
图像分割（图像处理）
文章/新闻主题分类
商品推荐系统中的用户分群

七、结语

K-Means 是数据科学和机器学习中最基础也最重要的聚类算法之一。掌握它的原理和实现，是学习更复杂聚类模型（如 DBSCAN、Gaussian Mixture Model 等）的重要基础。

图中的简要流程总结清晰明了，建议初学者反复理解图示四步，结合代码动手实践，加深理解。

如果你觉得本文对你有帮助，欢迎点赞、收藏、关注，获取更多机器学习干货！

参考资料：

Chris Albon 原始手写图解（https://chrisalbon.com）
Scikit-learn 官方文档：2.3. Clustering --- scikit-learn 1.6.1 documentation