分享一个通过聚类算法对数据特征进行聚类从而实现降维的代码
python
import numpy as np
from sklearn import datasets, cluster
digits = datasets.load_digits()
images = digits.images
X = np.reshape(images, (len(images), -1))
agglo = cluster.FeatureAgglomeration(n_clusters=32)
agglo.fit(X)
FeatureAgglomeration(n_clusters=32)
X_reduced = agglo.transform(X)
X_reduced.shape
以下是代码讲解:
1.导入numpy库和机器学习库的数据集、聚类算法模块
python
import numpy as np
from sklearn import datasets, cluster
2.加载手写数字数据集
python
digits = datasets.load_digits()
这行代码从 sklearn.datasets 模块中加载了手写数字数据集,该数据集包含8x8像素的灰度图像和对应的标签(0到9)。
3.获取图像数据
python
images = digits.images
digits.images 是一个形状为 (1797, 8, 8) 的数组,其中 1797 是样本数量,每个样本是一个 8x8 的灰度图像。
4.将图像数据重塑为二维数组
python
X = np.reshape(images, (len(images), -1))
这行代码将每个 8x8 的图像展平成一个长度为64的一维向量,因此 X 的形状变为 (1797, 64)。
5.创建并拟合 FeatureAgglomeration 对象
python
agglo = cluster.FeatureAgglomeration(n_clusters=32)
agglo.fit(X)
这里创建了一个 FeatureAgglomeration 对象,指定要生成的特征数为32。然后使用 fit 方法在数据 X 上训练这个模型。
6.转换数据以减少特征维度
python
X_reduced = agglo.transform(X)
这行代码使用训练好的 FeatureAgglomeration 模型将原始数据 X 转换为一个具有32个特征的新数据集 X_reduced。
7.查看转换后的数据形状
python
X_reduced.shape
这行代码输出 X_reduced 的形状。由于我们指定了 n_clusters=32,所以 X_reduced 的形状应该是 (1797, 32),即有1797个样本,每个样本有32个特征。
由此将手写数字图像数据从64维降到32维,通过特征聚合的方法实现降维。
可以在自己的数据集上试试~!