K均值聚类算法的入门指南

大家好!今天我们来聊聊机器学习中的一个经典算法------K均值聚类(K-Means Clustering) 我们从两个方面来进行了解:

什么是K均值聚类? 为什么叫K均值?

什么是K均值聚类?

K均值聚类(K-Means Clustering)是一种非常流行的机器学习算法,用于将数据集分成K个不同的组,这些组被称为"簇"。这个算法的主要目的是让每个数据点到其所属簇的中心(质心)的距离最小化。

为什么叫K均值?

这个名字其实很直观:

  • K表示我们想要的簇的数量。
  • 均值是因为每个簇的中心是通过计算簇内所有数据点的平均值来确定的。

算法步骤

  1. 随机选择初始质心:首先,从数据集中随机挑选K个点作为初始质心。
  2. 分配数据点到最近的质心:然后,将所有的数据点分配到离它们最近的质心所对应的簇中。
  3. 更新质心:重新计算每个簇的质心,方法是取该簇内所有数据点的平均值。
  4. 重复步骤2和3:不断重复上述过程,直到质心不再发生变化或达到预设的迭代次数。

接下来我们用Python实现一个简单的K均值聚类,并附上测试效果。

记得检查Python环境 ,下载相关库可以看我之前的文章:numpy环境安装

Python代码示例

python 复制代码
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

# 生成一些示例数据
X, y = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)

# 使用KMeans进行聚类
kmeans = KMeans(n_clusters=4)
kmeans.fit(X)
y_kmeans = kmeans.predict(X)

# 绘制结果
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis')
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.75)
plt.title("K-Means Clustering")
plt.show()

代码解释

  1. 生成示例数据make_blobs函数生成了一些随机分布的二维数据点,这些点自然地聚集成四个簇。
  2. 创建KMeans对象并进行拟合KMeans(n_clusters=4)创建一个K均值聚类对象,指定我们要分成4个簇。fit方法对数据进行聚类。
  3. 预测簇标签predict方法返回每个数据点所属的簇的标签。
  4. 绘制结果:使用Matplotlib库绘制散点图,其中不同颜色表示不同的簇,红色大圆点表示质心。

配图说明

这张图展示了K均值聚类的结果。你可以看到,数据点被分成了四个簇,每个簇有一个红色的质心。这些质心的位置是通过计算簇内所有点的平均值得到的。

总结

K均值聚类算法简单易用,适用于大多数无监督学习任务。它通过不断优化质心的位置来最小化数据点到质心的距离,从而找到最优的簇划分。


相关推荐
Han.miracle11 小时前
数据结构——二叉树的从前序与中序遍历序列构造二叉树
java·数据结构·学习·算法·leetcode
mit6.82413 小时前
前后缀分解
算法
QX_hao14 小时前
【Go】--map和struct数据类型
开发语言·后端·golang
你好,我叫C小白14 小时前
C语言 循环结构(1)
c语言·开发语言·算法·while·do...while
MC丶科14 小时前
【SpringBoot 快速上手实战系列】5 分钟用 Spring Boot 搭建一个用户管理系统(含前后端分离)!新手也能一次跑通!
java·vue.js·spring boot·后端
G探险者15 小时前
为何一个系统上线要经过N轮测试?带你看懂企业级发布体系
后端
lang2015092816 小时前
Spring Boot 入门:5分钟搭建Hello World
java·spring boot·后端
寂静山林16 小时前
UVa 10228 A Star not a Tree?
算法
Neverfadeaway17 小时前
【C语言】深入理解函数指针数组应用(4)
c语言·开发语言·算法·回调函数·转移表·c语言实现计算器