三种降维方式(PCA,t-SNE,UMAP)详解

参考视频

https://www.bilibili.com/video/BV12HE8zsEnb/?spm_id_from=333.337.search-card.all.click&vd_source=132c74f7a893f6ef64b723d9600c40b7https://www.bilibili.com/video/BV12HE8zsEnb/?spm_id_from=333.337.search-card.all.click&vd_source=132c74f7a893f6ef64b723d9600c40b7

PCA:principal component analysis

PCA是一种将为方式

特征在不同维度上的分布差异不同

通过将原始的高维度特征投影到方差分布最大的方向上来降低维度。并保持数据间的差异性

而投影到主成分上时,低维的数据还是保持了高维度的可区分性

计算方式:

1,首先对数据进行中心化,数据减去均值

2,计算协方差矩阵

3,找到协方差矩阵的特征向量

4,根据特征值将这些特征向量降序排列

5,特征值最大的特征向量即为主成分

6,构造出一个矩阵,将原始的数据投影到主成分的轴上

PCA是线性的,因此在非线性的数据分布上得到的结果不好

SNE和t-SNE: t- distributed stochastic neighbor embedding

t-SNE在2008年由hintion开发,基于他之前在2002年的工作SNE

SNE

SNE的思想:在高维度中的数据之间的距离,在低维度的表示中也应该保持相似

SNE可以处理非线性的数据分布

SNE思想:

对于一个参考点,用高斯分布的概率值来表示他周围的点是这个参考点的领居的概率

其中距离就是二范数距离

而这个高斯的sigma的取值,用困惑度(perplexity)来表述

对每个点,都按照上述方式计算邻居概率。最后再归一化到0

另外,在另一个低维空间中,也随机化同样个数的初始点,然后用同样的公式计算这个概率

最终优化的目标就是让这两个分布尽量接近

通过KL散度的方式来计算这两个分布之间的距离

根据这个公式进行求导即可优化

t-SNE

SNE的缺点就是计算的速度非常慢

因此t-SNE调整了分布,在低维空间中使用t分布

但是,t-SNE的效果仍然非常收到perplexity的影响,不同的perplexity得到的结果可能相差很大

UMAP:Uniform Manifold Approximation and Projection

UMAP这个方法是2018年被提出的

UMAP的思想和SNE其实差不多,区别就是将高斯概率的表示方法换成了用图来表示

通过找每个参考的k个最近邻的邻居点,因此就得到了一个二维的图

得到最近的几个点之后,通过下面的公式来计算距离权重(类似SNE),rou参数的目的是让最近的点的权重为1

对每个参考点都进行上述的运算

然后将这些子图合成到一个图里面,将两条边和成一条边

最后通过优化高维空间和低维空间的加权图矩阵的距离来实现低维表示

用随机梯度下降和交叉熵来优化这两个矩阵之间的距离

UMAP的速度比t-SNE快得多,并且效果更好,而且可以更好的保留全局的结构

相关推荐
老鱼说AI1 小时前
CUDA架构与高性能程序设计:多维网格与数据
c++·人工智能·深度学习·神经网络·机器学习·语言模型·cuda
Tina姐1 小时前
3D Slicer新模型CADS-自动分割全身167个器官
人工智能·深度学习
AI人工智能+1 小时前
网约车运输证识别技术:深度融合计算机视觉与自然语言处理技术,实现对运输证全字段的高精度定位、识别与结构化提取
深度学习·计算机视觉·ocr·网约车运输证识别
简单光学1 小时前
透过散射介质的智能成像:深度学习驱动的散斑相关性重建研究
深度学习·散射成像
执笔论英雄1 小时前
【RL】LLM-in-Sandbox Elicits General Agentic Intelligence
深度学习
Pyeako1 小时前
基于Qt和PaddleOCR的工业视觉识别报警系统开发
人工智能·python·深度学习·数码相机·opencv·ocr·pyqt5
DX_水位流量监测2 小时前
德希科技供水水质多参数 PLC 一体机
网络·人工智能·深度学习·水质监测·水质传感器·水质厂家·供水水质监测
sin°θ_陈2 小时前
CVPR 2026的3DGS卷到什么地步?工程语义上探:BrepGaussian如何打通图像到CAD的最后一公里?(Part III 1-3)
python·深度学习·算法·机器学习·3d·webgl
张张123y3 小时前
机器学习与深度学习:从基础概念到YOLOv8全解析
深度学习·yolo·机器学习