K-means 算法【python,算法,机器学习】

K-means 算法试图将数据集中的样本划分为若干个子集,每个子集称为一个簇,通过该算法使得每个聚类内的数据点尽可能相似(即距离该聚类的中心点最近),而不同聚类之间的数据点尽可能不相似。

算法步骤如下:

  1. 从样例数据中随机选择k个点作为初始质心,k表示簇的个数。

  2. 根据质心点循环进行计算分类。当质心点不发生变化时,结束循环,返回最终的质心点。详细计算步骤如下:

    1. 根据质心计算每个点到质心的欧氏距离。
    2. 对于每个数据点,寻找距离最近的质点归类。
    3. 计算每个簇中数据点的平均距离。
    4. 以该平均值作为新的质点,继续计算。

    举个例子,假设计算得到的欧式距离数据如下:

    复制代码
    [[1,2,3],[2,3,1],[4,5,6],[7,6,4]....[3,1,2]]

    表示有 3 个簇,样本数据的第一个点距离这三个质点的距离分别为 1、2、3,第二个点距离三个质点的距离分别为 2、3、1,后边的数据依次类推。那么会将第一个点分类到簇 1,第二点分类到簇 3,依次类推。

  3. 根据第 2 步骤得到的质心点,计算获取簇数据。参考 2.1-2.2 步骤。

如下是根据你的需求给出的 Python 示例代码,请在你的环境上提前安装pandas库和numpy库。

python 复制代码
import random
import numpy as np
import pandas as pd


# 计算欧氏距离
def euclidean_distance(dataset, centroids, k):
	clalist = []
	for data in dataset:
		# 平铺数据,计算每个点到质心的距离
		diff = np.tile(data, (k, 1)) - centroids
		squared_diff = diff ** 2
		squared_dist = np.sum(squared_diff, axis=1)
		distance = squared_dist ** 0.5
		clalist.append(distance)
	# 返回一个每个点到质点的距离的数组
	clalist = np.array(clalist)
	return clalist


# 分类并计算变化量
def classify(dataset, centroids, k):
	# 计算单个点到每个质心的的距离
	# 数据结构为:[[1,2,3],[2,3,1],[4,5,6],[7,6,4]....[3,1,2]]
	# 表示有三个质心,数组中的第一个元素表示样本的第一个点分别到三个质心的距离
	clalist = euclidean_distance(dataset, centroids, k)
	# 对于每个点,将会分配到距离它最近的质心,这里给出的是分类结果的索引
	min_dist_indices = np.argmin(clalist, axis=1)
	# 按照 min_dist_indices 进行统计分类,对分类结果求均值
	new_centro_ids = pd.DataFrame(dataset).groupby(min_dist_indices).mean()
	new_centro_ids = new_centro_ids.values
	# 计算变化量
	changed = new_centro_ids - centroids

	return changed, new_centro_ids


# k-means 算法
def kmeans(dataset, k):
	# 随机取质心
	centroids = random.sample(dataset, k)

	# 更新质心,直到变化量全为 0
	changed, new_centro_ids = classify(dataset, centroids, k)
	while np.any(changed != 0):
		changed, new_centro_ids = classify(dataset, new_centro_ids, k)

	centroids = sorted(new_centro_ids.tolist())

	# 根据质心计算每个集群
	cluster = []
	clalist = euclidean_distance(dataset, centroids, k)
	min_dist_indices = np.argmin(clalist, axis=1)
	for _ in range(k):
		cluster.append([])
	for data_idx, cluster_idx in enumerate(min_dist_indices):
		cluster[cluster_idx].append(dataset[data_idx])

	return centroids, cluster


# 创建数据集
dataset = [[1, 1], [1, 2], [2, 1], [6, 4], [6, 3], [5, 4]]
# k-means 算法
centroids, cluster = kmeans(dataset, 2)
print('质心为:{}'.format(centroids))
print('集群为:{}'.format(cluster))

上述代码中,定义了一个主函数kmeans和两个辅助函数classifyeuclidean_distance,创建了一个数据集dataset,主函数接受数据集dataset和聚类的类别数k作为输入,然后调用两个辅助函数实现聚类计算的功能。

需要注意的是,K-means 算法虽然有效,但是容易受到初始簇质心的情况而影响,有可能陷入局部最优解。

相关推荐
Xの哲學19 小时前
Linux NAPI 架构详解
linux·网络·算法·架构·边缘计算
koo36421 小时前
李宏毅机器学习笔记30
人工智能·笔记·机器学习
长桥夜波21 小时前
机器学习日报02
人工智能·机器学习·neo4j
tainshuai1 天前
YOLOv4 实战指南:单 GPU 训练的目标检测利器
yolo·目标检测·机器学习
京东零售技术1 天前
扛起技术大梁的零售校招生们 | 1024技术人特别篇
算法
爱coding的橙子1 天前
每日算法刷题Day78:10.23:leetcode 一般树7道题,用时1h30min
算法·leetcode·深度优先
Swift社区1 天前
LeetCode 403 - 青蛙过河
算法·leetcode·职场和发展
地平线开发者1 天前
三种 Badcase 精度验证方案详解与 hbm_infer 部署实录
算法·自动驾驶
wperseverance1 天前
Pytorch常用层总结
深度学习·机器学习
papership1 天前
【入门级-算法-5、数值处理算法:高精度的减法】
算法·1024程序员节