无监督学习 - 均值聚类(K-Means Clustering)

什么是机器学习

K-Means聚类是一种无监督学习算法,用于将数据集分成K个不同的组(簇),每个组内的数据点与组内其他点的相似度较高,而与其他组内的点相似度较低。这是通过迭代地调整簇中心和将数据点分配到最近的簇来实现的。以下是K-Means聚类的基本步骤:

  1. 初始化: 随机选择K个数据点作为初始簇中心,这些点可以是数据集中的实际数据点,或者通过其他初始化方法获得。
  2. 分配到最近的簇: 对于每个数据点,计算其与各个簇中心的距离,并将其分配到距离最近的簇。
  3. 更新簇中心: 对于每个簇,计算其所有数据点的均值,并将该均值作为新的簇中心。
  4. 重复步骤2和步骤3: 重复执行步骤2和步骤3,直到簇中心不再发生显著变化或达到预定的迭代次数。
  5. 输出结果: 最终得到K个簇,每个簇由其均值(簇中心)表示。数据点被分配到这些簇中的一个,形成了聚类结果。

K-Means聚类的优点包括简单、高效,对于大型数据集也是相对可行的。然而,它也有一些缺点,比如对于簇形状不规则或大小差异较大的数据集,表现可能不佳。此外,K值的选择通常需要一些经验或者通过其他方法进行评估,比如肘部法则(Elbow Method)。

下面是使用Python中的scikit-learn库进行K-Means聚类的简单示例:

python 复制代码
from sklearn.cluster import KMeans
import numpy as np

# 生成随机数据集
np.random.seed(42)
data = np.random.rand(100, 2)

# 使用K-Means进行聚类(假设要分成3个簇)
kmeans = KMeans(n_clusters=3)
kmeans.fit(data)

# 获取簇中心和分配结果
centroids = kmeans.cluster_centers_
labels = kmeans.labels_

# 打印结果
print("簇中心:")
print(centroids)
print("\n分配结果:")
print(labels)

这只是一个简单的例子,实际应用中需要根据数据集的特点和需求进行调整和优化。

相关推荐
磊 子2 分钟前
多态类原理+四种类型转换+异常处理
开发语言·c++·算法
小何code3 分钟前
人工智能【第27篇】AI伦理与安全:负责任的AI开发
人工智能·隐私保护·ai伦理·算法公平
咚咚王者5 分钟前
人工智能之智能体应用 第一章 大模型应用开发基础框架入门
人工智能
边缘计算社区9 分钟前
6G “AI-Native”:真命题还是PPT?拆解3GPP R19/R20的AI条款
人工智能·ai-native
吴佳浩29 分钟前
OpenClaw最严厉的父亲- 使用优化建议
人工智能·llm·agent
安吉升科技38 分钟前
ai双目智能客流摄像头是什么?有哪些作用呢?
人工智能
大势智慧1 小时前
大势智慧与您相约2026世界无人机大会暨UASE无人机展
人工智能·无人机·趋势·未来·低空经济·空间智能·世界无人机大会
云烟成雨TD1 小时前
Spring AI Alibaba 1.x 系列【52】Interrupts 中断机制:节点执行前后静态中断
java·人工智能·spring
y = xⁿ1 小时前
Java并发八股学习日记
java·开发语言·学习
染指11101 小时前
3.AI大模型-token是什么-大模型底层运行机制
人工智能·算法·机器学习