K-means 算法【python,算法,机器学习】

K-means 算法试图将数据集中的样本划分为若干个子集,每个子集称为一个簇,通过该算法使得每个聚类内的数据点尽可能相似(即距离该聚类的中心点最近),而不同聚类之间的数据点尽可能不相似。

算法步骤如下:

  1. 从样例数据中随机选择k个点作为初始质心,k表示簇的个数。

  2. 根据质心点循环进行计算分类。当质心点不发生变化时,结束循环,返回最终的质心点。详细计算步骤如下:

    1. 根据质心计算每个点到质心的欧氏距离。
    2. 对于每个数据点,寻找距离最近的质点归类。
    3. 计算每个簇中数据点的平均距离。
    4. 以该平均值作为新的质点,继续计算。

    举个例子,假设计算得到的欧式距离数据如下:

    复制代码
    [[1,2,3],[2,3,1],[4,5,6],[7,6,4]....[3,1,2]]

    表示有 3 个簇,样本数据的第一个点距离这三个质点的距离分别为 1、2、3,第二个点距离三个质点的距离分别为 2、3、1,后边的数据依次类推。那么会将第一个点分类到簇 1,第二点分类到簇 3,依次类推。

  3. 根据第 2 步骤得到的质心点,计算获取簇数据。参考 2.1-2.2 步骤。

如下是根据你的需求给出的 Python 示例代码,请在你的环境上提前安装pandas库和numpy库。

python 复制代码
import random
import numpy as np
import pandas as pd


# 计算欧氏距离
def euclidean_distance(dataset, centroids, k):
	clalist = []
	for data in dataset:
		# 平铺数据,计算每个点到质心的距离
		diff = np.tile(data, (k, 1)) - centroids
		squared_diff = diff ** 2
		squared_dist = np.sum(squared_diff, axis=1)
		distance = squared_dist ** 0.5
		clalist.append(distance)
	# 返回一个每个点到质点的距离的数组
	clalist = np.array(clalist)
	return clalist


# 分类并计算变化量
def classify(dataset, centroids, k):
	# 计算单个点到每个质心的的距离
	# 数据结构为:[[1,2,3],[2,3,1],[4,5,6],[7,6,4]....[3,1,2]]
	# 表示有三个质心,数组中的第一个元素表示样本的第一个点分别到三个质心的距离
	clalist = euclidean_distance(dataset, centroids, k)
	# 对于每个点,将会分配到距离它最近的质心,这里给出的是分类结果的索引
	min_dist_indices = np.argmin(clalist, axis=1)
	# 按照 min_dist_indices 进行统计分类,对分类结果求均值
	new_centro_ids = pd.DataFrame(dataset).groupby(min_dist_indices).mean()
	new_centro_ids = new_centro_ids.values
	# 计算变化量
	changed = new_centro_ids - centroids

	return changed, new_centro_ids


# k-means 算法
def kmeans(dataset, k):
	# 随机取质心
	centroids = random.sample(dataset, k)

	# 更新质心,直到变化量全为 0
	changed, new_centro_ids = classify(dataset, centroids, k)
	while np.any(changed != 0):
		changed, new_centro_ids = classify(dataset, new_centro_ids, k)

	centroids = sorted(new_centro_ids.tolist())

	# 根据质心计算每个集群
	cluster = []
	clalist = euclidean_distance(dataset, centroids, k)
	min_dist_indices = np.argmin(clalist, axis=1)
	for _ in range(k):
		cluster.append([])
	for data_idx, cluster_idx in enumerate(min_dist_indices):
		cluster[cluster_idx].append(dataset[data_idx])

	return centroids, cluster


# 创建数据集
dataset = [[1, 1], [1, 2], [2, 1], [6, 4], [6, 3], [5, 4]]
# k-means 算法
centroids, cluster = kmeans(dataset, 2)
print('质心为:{}'.format(centroids))
print('集群为:{}'.format(cluster))

上述代码中,定义了一个主函数kmeans和两个辅助函数classifyeuclidean_distance,创建了一个数据集dataset,主函数接受数据集dataset和聚类的类别数k作为输入,然后调用两个辅助函数实现聚类计算的功能。

需要注意的是,K-means 算法虽然有效,但是容易受到初始簇质心的情况而影响,有可能陷入局部最优解。

相关推荐
李师兄说大模型2 分钟前
KDD 2025 | 地理定位中的群体智能:一个多智能体大型视觉语言模型协同框架
人工智能·深度学习·机器学习·语言模型·自然语言处理·大模型·deepseek
向阳@向远方28 分钟前
第二章 简单程序设计
开发语言·c++·算法
网安INF1 小时前
深层神经网络:原理与传播机制详解
人工智能·深度学习·神经网络·机器学习
github_czy1 小时前
RRF (Reciprocal Rank Fusion) 排序算法详解
算法·排序算法
许愿与你永世安宁2 小时前
力扣343 整数拆分
数据结构·算法·leetcode
爱coding的橙子2 小时前
每日算法刷题Day42 7.5:leetcode前缀和3道题,用时2h
算法·leetcode·职场和发展
满分观察网友z2 小时前
从一次手滑,我洞悉了用户输入的所有可能性(3330. 找到初始输入字符串 I)
算法
YuTaoShao3 小时前
【LeetCode 热题 100】73. 矩阵置零——(解法二)空间复杂度 O(1)
java·算法·leetcode·矩阵
Heartoxx3 小时前
c语言-指针(数组)练习2
c语言·数据结构·算法