在数据集上通过聚类实现特征降维

分享一个通过聚类算法对数据特征进行聚类从而实现降维的代码

python 复制代码
import numpy as np
from sklearn import datasets, cluster
digits = datasets.load_digits()
images = digits.images
X = np.reshape(images, (len(images), -1))
agglo = cluster.FeatureAgglomeration(n_clusters=32)
agglo.fit(X)
FeatureAgglomeration(n_clusters=32)
X_reduced = agglo.transform(X)
X_reduced.shape

以下是代码讲解:

1.导入numpy库和机器学习库的数据集、聚类算法模块

python 复制代码
import numpy as np
from sklearn import datasets, cluster

2.加载手写数字数据集

python 复制代码
digits = datasets.load_digits()

这行代码从 sklearn.datasets 模块中加载了手写数字数据集,该数据集包含8x8像素的灰度图像和对应的标签(0到9)。

3.获取图像数据

python 复制代码
images = digits.images

digits.images 是一个形状为 (1797, 8, 8) 的数组,其中 1797 是样本数量,每个样本是一个 8x8 的灰度图像。

4.将图像数据重塑为二维数组

python 复制代码
X = np.reshape(images, (len(images), -1))

这行代码将每个 8x8 的图像展平成一个长度为64的一维向量,因此 X 的形状变为 (1797, 64)。

5.创建并拟合 FeatureAgglomeration 对象

python 复制代码
agglo = cluster.FeatureAgglomeration(n_clusters=32)
agglo.fit(X)

这里创建了一个 FeatureAgglomeration 对象,指定要生成的特征数为32。然后使用 fit 方法在数据 X 上训练这个模型。

6.转换数据以减少特征维度

python 复制代码
X_reduced = agglo.transform(X)

这行代码使用训练好的 FeatureAgglomeration 模型将原始数据 X 转换为一个具有32个特征的新数据集 X_reduced。

7.查看转换后的数据形状

python 复制代码
X_reduced.shape

这行代码输出 X_reduced 的形状。由于我们指定了 n_clusters=32,所以 X_reduced 的形状应该是 (1797, 32),即有1797个样本,每个样本有32个特征。

由此将手写数字图像数据从64维降到32维,通过特征聚合的方法实现降维。

可以在自己的数据集上试试~!

相关推荐
隐层漫游者19 小时前
2026年了,你还只会sklearn.fit()?手把手教你推导线性回归,深度解析梯度下降与正则化,波士顿房价预测全揭秘!
机器学习
茗创科技19 小时前
Nat Hum Behav | 特征选择会导致基于脑影像的机器学习生物标志物产生迥异的神经生物学解释
python·深度学习·机器学习·matlab·脑网络
Hali_Botebie20 小时前
岭回归(Ridge Regression),也称为L2正则化回归
数据挖掘·回归·kotlin
YangYang9YangYan20 小时前
2026运营专员职场能力提升:数据分析的价值与应用
数据挖掘·数据分析
人工智能培训20 小时前
AI人工智能未来发展趋势
人工智能·深度学习·机器学习·docker·容器
XD7429716361 天前
大模型可解释性-颠覆认知:大语言模型在预训练中并非“稳定变聪明”
人工智能·机器学习·语言模型
星座5281 天前
AI-Python机器学习与深度学习全栈实战:从机器学习、深度学习到自动化Agent在科学研究中的深度应用全揭秘
人工智能·python·机器学习
安迁岚1 天前
基于珠三角城市热岛热点核心中心点的等级化点格局分析
人工智能·arcgis·信息可视化·数据挖掘·数据分析·地统计
大模型最新论文速读1 天前
05-18 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
温九味闻醉1 天前
关于腾讯广告算法大赛2025项目面试要点
人工智能·算法·机器学习