K-means 算法【python,算法,机器学习】

K-means 算法试图将数据集中的样本划分为若干个子集,每个子集称为一个簇,通过该算法使得每个聚类内的数据点尽可能相似(即距离该聚类的中心点最近),而不同聚类之间的数据点尽可能不相似。

算法步骤如下:

  1. 从样例数据中随机选择k个点作为初始质心,k表示簇的个数。

  2. 根据质心点循环进行计算分类。当质心点不发生变化时,结束循环,返回最终的质心点。详细计算步骤如下:

    1. 根据质心计算每个点到质心的欧氏距离。
    2. 对于每个数据点,寻找距离最近的质点归类。
    3. 计算每个簇中数据点的平均距离。
    4. 以该平均值作为新的质点,继续计算。

    举个例子,假设计算得到的欧式距离数据如下:

    复制代码
    [[1,2,3],[2,3,1],[4,5,6],[7,6,4]....[3,1,2]]

    表示有 3 个簇,样本数据的第一个点距离这三个质点的距离分别为 1、2、3,第二个点距离三个质点的距离分别为 2、3、1,后边的数据依次类推。那么会将第一个点分类到簇 1,第二点分类到簇 3,依次类推。

  3. 根据第 2 步骤得到的质心点,计算获取簇数据。参考 2.1-2.2 步骤。

如下是根据你的需求给出的 Python 示例代码,请在你的环境上提前安装pandas库和numpy库。

python 复制代码
import random
import numpy as np
import pandas as pd


# 计算欧氏距离
def euclidean_distance(dataset, centroids, k):
	clalist = []
	for data in dataset:
		# 平铺数据,计算每个点到质心的距离
		diff = np.tile(data, (k, 1)) - centroids
		squared_diff = diff ** 2
		squared_dist = np.sum(squared_diff, axis=1)
		distance = squared_dist ** 0.5
		clalist.append(distance)
	# 返回一个每个点到质点的距离的数组
	clalist = np.array(clalist)
	return clalist


# 分类并计算变化量
def classify(dataset, centroids, k):
	# 计算单个点到每个质心的的距离
	# 数据结构为:[[1,2,3],[2,3,1],[4,5,6],[7,6,4]....[3,1,2]]
	# 表示有三个质心,数组中的第一个元素表示样本的第一个点分别到三个质心的距离
	clalist = euclidean_distance(dataset, centroids, k)
	# 对于每个点,将会分配到距离它最近的质心,这里给出的是分类结果的索引
	min_dist_indices = np.argmin(clalist, axis=1)
	# 按照 min_dist_indices 进行统计分类,对分类结果求均值
	new_centro_ids = pd.DataFrame(dataset).groupby(min_dist_indices).mean()
	new_centro_ids = new_centro_ids.values
	# 计算变化量
	changed = new_centro_ids - centroids

	return changed, new_centro_ids


# k-means 算法
def kmeans(dataset, k):
	# 随机取质心
	centroids = random.sample(dataset, k)

	# 更新质心,直到变化量全为 0
	changed, new_centro_ids = classify(dataset, centroids, k)
	while np.any(changed != 0):
		changed, new_centro_ids = classify(dataset, new_centro_ids, k)

	centroids = sorted(new_centro_ids.tolist())

	# 根据质心计算每个集群
	cluster = []
	clalist = euclidean_distance(dataset, centroids, k)
	min_dist_indices = np.argmin(clalist, axis=1)
	for _ in range(k):
		cluster.append([])
	for data_idx, cluster_idx in enumerate(min_dist_indices):
		cluster[cluster_idx].append(dataset[data_idx])

	return centroids, cluster


# 创建数据集
dataset = [[1, 1], [1, 2], [2, 1], [6, 4], [6, 3], [5, 4]]
# k-means 算法
centroids, cluster = kmeans(dataset, 2)
print('质心为:{}'.format(centroids))
print('集群为:{}'.format(cluster))

上述代码中,定义了一个主函数kmeans和两个辅助函数classifyeuclidean_distance,创建了一个数据集dataset,主函数接受数据集dataset和聚类的类别数k作为输入,然后调用两个辅助函数实现聚类计算的功能。

需要注意的是,K-means 算法虽然有效,但是容易受到初始簇质心的情况而影响,有可能陷入局部最优解。

相关推荐
To_OC6 小时前
LC 49 字母异位词分组:想到哈希表很简单,选对 key 才是精髓
javascript·算法·leetcode
用户9385156350711 小时前
从 O(n²) 到 O(nlogn):一文读懂快速排序的“快”与“妙”
javascript·算法
To_OC12 小时前
手写快排次次翻车?别死背快排模板了,这才是面试官想听的底层逻辑
javascript·算法·排序算法
饼干哥哥12 小时前
Reddit VOC调研太慢?搭一个AI专家团队半小时洞察任何品类|以猫用饮水机为例
人工智能·算法·ai编程
地平线开发者14 小时前
Transformer模型部署之性能优化指南
算法
地平线开发者14 小时前
人在途中:从“编译失败”到“模型可落地”——CUDA 自定义算子
算法·自动驾驶
半个落月17 小时前
从递归到快速排序:用 JavaScript 把分治思想讲明白
javascript·算法·面试
小月土星18 小时前
JavaScript 快速排序:从 pivot、双指针到分治思想
javascript·算法·面试
小月土星18 小时前
JavaScript 递归入门:从 1 到 n 求和,再到数组扁平化
javascript·算法·面试