机器学习 高维数据可视化:t-SNE 降维算法

✅作者简介:人工智能专业本科在读,喜欢计算机与编程,写博客记录自己的学习历程。

🍎个人主页:小嗷犬的个人主页

🍊个人网站:小嗷犬的技术小站

🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


本文目录

    • [t-SNE 简介](#t-SNE 简介)
    • [sklearn 中的 t-SNE](#sklearn 中的 t-SNE)
    • [使用 t-SNE 可视化手写数字数据集](#使用 t-SNE 可视化手写数字数据集)

t-SNE 简介

t-SNE 的全称为 t-Distributed Stochastic Neighbor Embedding,是一种非线性降维算法,它可以将高维数据映射到低维空间,同时保持数据间的相对距离不变。t-SNE 通常用于可视化高维数据,它可以将高维数据映射到二维或三维空间,从而可以通过图形的方式展示数据的特征。

相比于 PCA 等线性降维算法,t-SNE 能够更好地保留数据的局部结构,因此在可视化高维数据时,t-SNE 通常能够展示出更好的效果。

sklearn 中的 t-SNE

sklearn 中的 t-SNE 位于 sklearn.manifold.TSNE,它的主要参数有:

  • n_components:降维后的维度,默认为 2
  • perplexity:困惑度,用于控制每个点周围的邻域大小,默认为 30,通常取值在 5 到 50 之间
  • early_exaggeration:控制 t-SNE 与原始空间距离的关注度,值越大,t-SNE 与原始空间距离越大,默认为 12
  • learning_rate:学习率,默认为 200,通常取值在 10 到 1000 之间
  • n_iter:迭代次数,默认为 1000
  • n_iter_without_progress:当连续多少次迭代没有改善时,训练提前结束,默认为 300
  • min_grad_norm:梯度的最小值,当梯度的平方和小于该值时,训练提前结束,默认为 1e-7
  • metric:距离度量,默认为欧氏距离
  • init:初始化,默认为随机初始化,也可以设置为 pca,表示使用 PCA 进行初始化
  • verbose:是否打印训练过程,默认为 0,不打印
  • random_state:随机种子

t-SNE 的训练过程比较耗时,因此在实际使用时,通常会先使用 PCA 等线性降维算法将数据降到较低的维度,然后再使用 t-SNE 将数据降到二维或三维空间。

使用 t-SNE 可视化手写数字数据集

下面我们使用 t-SNE 将手写数字数据集降到二维空间,并将降维后的数据可视化。

导入需要的包:

python 复制代码
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn import manifold, datasets
from sklearn.preprocessing import MinMaxScaler

from torchvision import datasets

加载手写数字数据集:

python 复制代码
digits = datasets.MNIST("./data", train=True, download=True)
X, y = digits.data.numpy().reshape(-1, 28 * 28), digits.targets.numpy()
n = 5000
X, y = X[:n], y[:n]
X.shape, y.shape  # ((5000, 784), (5000,))

可视化原始数据:

python 复制代码
n = 10  # 显示 10 * 10 个数字
img = np.zeros((30 * n, 30 * n))
for i in range(n):
    ix = 30 * i + 1
    for j in range(n):
        iy = 30 * j + 1
        img[ix : ix + 28, iy : iy + 28] = X[i * n + j].reshape(28, 28)
plt.figure(figsize=(8, 8))
plt.imshow(img, cmap=plt.cm.binary)
plt.axis("off")
plt.show()

使用 t-SNE 将数据降到二维空间并可视化:

python 复制代码
# t-SNE 降维
tsne = manifold.TSNE(n_components=2, init="pca", random_state=0)
X_tsne = tsne.fit_transform(X)

# 归一化
scaler = MinMaxScaler()
X_norm = scaler.fit_transform(X_tsne)

# 可视化
plt.figure(figsize=(9, 9))
for i in range(X_norm.shape[0]):
    plt.text(
        X_norm[i, 0],
        X_norm[i, 1],
        str(y[i]),
        color=plt.cm.tab10(y[i]),
        fontdict={"size": 12},
        va="center",
        ha="center",
    )
plt.axis("off")
plt.show()
相关推荐
Ulyanov24 分钟前
构建企业级雷达电子战仿真引擎的工程化基础 第一篇:CI/CD流水线与自动化测试体系
python·ci/cd·架构·系统仿真·雷达电子战仿真
qq_359716238 小时前
openpi使用过程中相关问题
人工智能·深度学习·机器学习
IAUTOMOBILE9 小时前
Python 流程控制与函数定义:从调试现场到工程实践
java·前端·python
阿钱真强道10 小时前
08 从 MLP 到 LeNet:为什么一个神经元不够?
深度学习·神经网络·机器学习·mlp·决策边界
罗西的思考10 小时前
【OpenClaw】通过Nanobot源码学习架构---(2)外层控制逻辑
人工智能·机器学习
TT_441910 小时前
python程序实现图片截图溯源功能
开发语言·python
小陈的进阶之路11 小时前
logging 日志模块笔记
python
cqbelt11 小时前
Python 并发编程实战学习笔记
笔记·python·学习
智算菩萨11 小时前
【论文复现】Applied Intelligence 2025:Auto-PU正例无标签学习的自动化实现与GPT-5.4辅助编程实战
论文阅读·python·gpt·学习·自动化·复现
FluxMelodySun12 小时前
机器学习(二十八) 特征选择与常见的特征选择方法
人工智能·机器学习