【AI原理解析】—k-means原理

步骤

初始化 ：
- 选择 k 个初始质心（通常通过随机选择数据集中的 k 个点作为初始质心）。
迭代过程 ：
- 分配数据点到最近的质心 ：
  - 对于数据集中的每个数据点，计算它与 k 个质心之间的距离（例如，使用欧几里得距离）。
  - 将数据点分配给距离其最近的质心所对应的聚类。
- 重新计算质心 ：
  - 对于每个聚类，计算该聚类中所有数据点的均值（平均值），并将这个均值设为新的质心。
- 检查收敛 ：
  - 重复上述两个步骤，直到达到某个停止条件（例如，质心的变化小于某个阈值，或者达到预设的迭代次数）。
结果输出 ：
- 最终的聚类结果和每个聚类的质心。

k 的选择 ：k 的值需要预先设定，而且不同的 k 值可能会导致不同的聚类结果。因此，k 的选择通常基于领域知识、数据的可视化或一些启发式方法（如肘部法则）。
- 手肘法：通过绘制不同k值下的代价函数曲线，选择曲线趋于平稳前的拐点作为最佳k值。
- Gap Statistic方法：通过计算真实样本和随机样本在不同k值下的损失函数差值（Gap值），选择使Gap值最大的k值作为最佳k值。
初始质心的选择：随机选择初始质心可能会导致不同的聚类结果。为了解决这个问题，可以使用一些更复杂的初始化方法，如 K-means++。
对异常值的敏感性：由于质心是基于所有数据点的均值计算的，因此异常值可能会对聚类结果产生较大影响。
空聚类：在某些情况下，可能会出现某些聚类中没有数据点的情况。这通常是由于初始质心的选择不当或 k 值设置得过大导致的。
迭代次数和收敛条件：需要设置适当的迭代次数和收敛条件来确保算法能够稳定地收敛。
数据的预处理：在应用 k-means 算法之前，通常需要对数据进行一些预处理操作，如特征缩放、标准化或归一化，以确保不同的特征在聚类过程中具有相同的权重。