Sklearn K-均值算法

以下是一个使用Sklearn库实现K-均值聚类算法的简单代码示例。K-均值算法是一种迭代算法,用于将数据集分为K个簇,使得每个簇的内部平方误差最小。

python 复制代码
# 导入必要的库
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
import numpy as np
# 创建样本数据
# X是一个包含特征的二维数组
# 这里我们随机生成数据
np.random.seed(0)
X = np.random.rand(100, 2)  # 100个样本,每个样本有2个特征
# 创建KMeans聚类模型实例
# 你可以根据需要调整n_clusters参数,即簇的数量
kmeans = KMeans(n_clusters=3, random_state=42)
# 训练模型
kmeans.fit(X)
# 预测聚类结果
labels = kmeans.predict(X)
# 计算并打印轮廓系数,评估聚类效果
silhouette = silhouette_score(X, labels)
print(f"轮廓系数为: {silhouette}")
# 打印聚类中心
print("聚类中心:", kmeans.cluster_centers_)
# 打印每个样本的预测标签
print("预测标签:", labels)

在上面的代码中,我们首先生成了一些随机数据作为样例,然后创建了一个KMeans聚类模型,并使用数据来拟合模型。在模型训练之后,我们使用轮廓系数来评估聚类的质量,轮廓系数取值范围在-1到1之间,值越大表示聚类效果越好。我们还打印出了聚类中心和每个样本的预测标签,以便于理解聚类结果。

请注意,K-均值算法对初始中心的选择敏感,可能会导致不同的运行结果。为了获得更稳定的结果,通常建议在多次运行中使用不同的初始中心,并选择具有最高轮廓系数的聚类结果。

相关推荐
重生之我要成为代码大佬39 分钟前
深度学习1-安装pytorch(无独立显卡版本)
人工智能·pytorch·深度学习·机器学习
烟锁池塘柳01 小时前
一文总结模型压缩技术:剪枝、量化与蒸馏的原理、实践与工程思考
算法·机器学习·剪枝
鲨莎分不晴2 小时前
拯救暗淡图像:深度解析直方图均衡化(原理、公式与计算)
人工智能·算法·机器学习
武子康2 小时前
大数据-200 决策树信息增益详解:信息熵、ID3 选特征与 Python 最佳切分实现
大数据·后端·机器学习
咚咚王者3 小时前
人工智能之核心基础 机器学习 第四章 决策树与集成学习基础
人工智能·决策树·机器学习
AI科技星3 小时前
时空的固有脉动:波动方程 ∇²L = (1/c²) ∂²L/∂t² 的第一性原理推导、诠释与验证
数据结构·人工智能·算法·机器学习·重构
iiiiii115 小时前
TD(λ),资格迹(Eligibility Traces)与时序差分学习的统一
人工智能·学习·机器学习·强化学习·rl
matlabgoodboy7 小时前
matlab代编程序机器学习通信仿真python神经网络图像处理优化算法
python·机器学习·matlab
chasemydreamidea7 小时前
L2 书生大模型强化学习 RL 实践
人工智能·机器学习
郝学胜-神的一滴7 小时前
机器学习数据工程之基石:论数据集划分之道与sklearn实践
开发语言·人工智能·python·程序人生·机器学习·sklearn