K-Means 算法详解

K-Means 算法详解

K-Means 是一种流行的聚类算法,用于将数据划分为预定数量的簇(clusters)。

K-Means 算法的基本步骤

1. 初始化

  • 随机选择 k k k 个数据点作为初始质心(centroids)。

2. 分配数据点

  • 将每个数据点分配到最近的质心,形成 k k k 个簇。

3. 更新质心

  • 对于每个簇,计算所有数据点的均值,并将该均值作为新的质心。

4. 迭代

  • 重复步骤 2 和 3 直到满足停止条件(如质心不再显著变化或达到最大迭代次数)。

数学原理

1. 距离度量

  • 通常使用欧氏距离来度量数据点与质心之间的距离:

    Distance = ∑ i = 1 n ( x i − y i ) 2 \text{Distance} = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2} Distance=i=1∑n(xi−yi)2

    其中 x i x_i xi 和 y i y_i yi 是两点在第 i i i 维的坐标。

2. 目标函数

  • K-Means 的目标是最小化所有簇内数据点与其质心的距离之和:

    J = ∑ j = 1 k ∑ i = 1 n j ∣ ∣ x i ( j ) − c j ∣ ∣ 2 J = \sum_{j=1}^{k} \sum_{i=1}^{n_j} ||x_i^{(j)} - c_j||^2 J=j=1∑ki=1∑nj∣∣xi(j)−cj∣∣2

    其中 n j n_j nj 是第 j j j 个簇中的数据点数, x i ( j ) x_i^{(j)} xi(j) 是簇 j j j 中的第 i i i 个数据点, c j c_j cj 是簇 j j j 的质心。

代码

python 复制代码
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

# 生成模拟数据
X, _ = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)

# 创建KMeans实例
kmeans = KMeans(n_clusters=4)

# 训练模型
kmeans.fit(X)

# 预测簇标签
y_kmeans = kmeans.predict(X)

# 可视化聚类结果
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis')
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='black', s=200, alpha=0.5)
plt.title("K-Means Clustering")
plt.show()

在这个示例中,我们首先生成了一组模拟数据,然后创建了一个KMeans实例并指定簇的数量。接着,我们训练了模型并预测了每个数据点的簇标签。最后,我们使用Matplotlib可视化了聚类

K-Means 与 C-Means 的区别

K-Means

  • 硬聚类方法,每个数据点只属于一个簇。
  • 使用欧氏距离作为距离度量。
  • 更简单和快速。

C-Means(模糊C-Means)

  • 软聚类方法,每个数据点以一定程度属于所有簇。
  • 数据点对簇的隶属度是模糊的,由隶属函数给出。
  • 更适用于簇的边界不清晰的情况。

C-Means 为数据点提供了更多的灵活性,允许它们以不同程度属于多个簇,这在一些应用中可能更为合适。

相关推荐
爪哇学长33 分钟前
双指针算法详解:原理、应用场景及代码示例
java·数据结构·算法
Dola_Pan36 分钟前
C语言:数组转换指针的时机
c语言·开发语言·算法
IT古董1 小时前
【人工智能】Python在机器学习与人工智能中的应用
开发语言·人工智能·python·机器学习
繁依Fanyi1 小时前
简易安卓句分器实现
java·服务器·开发语言·算法·eclipse
烦躁的大鼻嘎1 小时前
模拟算法实例讲解:从理论到实践的编程之旅
数据结构·c++·算法·leetcode
C++忠实粉丝1 小时前
计算机网络socket编程(4)_TCP socket API 详解
网络·数据结构·c++·网络协议·tcp/ip·计算机网络·算法
机器人虎哥2 小时前
【8210A-TX2】Ubuntu18.04 + ROS_ Melodic + TM-16多线激光 雷达评测
人工智能·机器学习
用户37791362947552 小时前
【循环神经网络】只会Python,也能让AI写出周杰伦风格的歌词
人工智能·算法
福大大架构师每日一题2 小时前
文心一言 VS 讯飞星火 VS chatgpt (396)-- 算法导论25.2 1题
算法·文心一言
EterNity_TiMe_2 小时前
【论文复现】(CLIP)文本也能和图像配对
python·学习·算法·性能优化·数据分析·clip