无监督学习 - t-分布邻域嵌入(t-Distributed Stochastic Neighbor Embedding,t-SNE)

什么是机器学习

t-分布邻域嵌入(t-Distributed Stochastic Neighbor Embedding,t-SNE)是一种非线性降维技术,用于将高维数据映射到低维空间,以便更好地可视化数据的结构。t-SNE主要用于聚类分析和可视化高维数据的相似性结构,特别是在探索复杂数据集时非常有用。

t-SNE的基本原理

  1. 相似度测量: 对于高维数据中的每一对数据点,计算它们之间的相似度。通常使用高斯核函数来度量相似度。
  2. 学习相似度分布 : 使用 t-分布来学习数据点之间的相似度分布。t-分布具有厚尾特性,能够更好地保留相对较远数据点的相对距离。
  3. 在低维空间中映射: 在低维空间中随机初始化每个数据点的投影,并通过梯度下降来优化这些点的位置,使得它们的相似度分布在高维和低维空间中尽量相似。

t-SNE的特点

  1. 保留局部结构t-SNE更倾向于保留数据的局部结构,即相似的数据点在低维空间中仍然保持相近。
  2. 对异常值敏感t-SNE对异常值(相对于高维空间)较为敏感,可能导致异常值在降维后的结果中占据较大空间。

Python中使用scikit-learn进行t-SNE的简单示例:

python 复制代码
from sklearn.manifold import TSNE
import numpy as np
import matplotlib.pyplot as plt

# 生成随机高维数据集
np.random.seed(42)
data = np.random.rand(100, 10)

# 使用t-SNE进行降维
tsne = TSNE(n_components=2, perplexity=30, random_state=42)
embedded_data = tsne.fit_transform(data)

# 绘制t-SNE降维后的结果
plt.scatter(embedded_data[:, 0], embedded_data[:, 1])
plt.title('t-SNE Visualization')
plt.xlabel('特征1')
plt.ylabel('特征2')
plt.show()

这个例子中,t-SNE被用于将高维数据映射到二维空间,以便进行可视化。在实际应用中,可以根据数据集的特点调整t-SNE的参数,如perplexity等。需要注意的是,t-SNE的计算开销较大,特别是在处理大规模数据时,可能需要一些时间。

相关推荐
ULTRA??5 小时前
JPS路径规划(python AI实现)
开发语言·人工智能·python
Mr_Oak5 小时前
【multi-model】DINOv2(包含iBOT)& 问答
图像处理·人工智能·深度学习·算法·多模态·对比学习·视觉大模型
山峰哥5 小时前
从指针到智能体:我与C++的二十年技术进化与AI革命
大数据·开发语言·数据结构·c++·人工智能
七夜zippoe6 小时前
轻量模型微调:LoRA、QLoRA实战对比与工程实践指南
人工智能·深度学习·算法·lora·qlora·量化训练
大模型真好玩6 小时前
全网最通俗易懂DeepSeek-Math-V2与DeepSeek-V3.2核心知识点解析
人工智能·agent·deepseek
三金121386 小时前
初学Prompt工程
大数据·人工智能·prompt
im_AMBER6 小时前
Leetcode 68 搜索插入位置 | 寻找比目标字母大的最小字母
数据结构·笔记·学习·算法·leetcode
搬砖者(视觉算法工程师)6 小时前
关于HBM(高带宽内存)的3D堆叠架构、先进封装技术以及在现代GPU、AI加速器上应用介绍
人工智能·芯片设计·存储
San30.6 小时前
从 Mobile First 到 AI First:用 Python 和大模型让数据库“开口说话”
数据库·人工智能·python
重生之我在番茄自学网安拯救世界6 小时前
网络安全中级阶段学习笔记(四):XSS-Labs 前 10 关 通关命令and实战笔记
笔记·学习·网络安全·xss·xss-labs