常见的降维算法

作业:

自由作业:探索下什么时候用到降维?降维的主要应用?或者让ai给你出题,群里的同学互相学习下。可以考虑对比下在某些特定数据集上t-sne的可视化和pca可视化的区别。

一、什么时候用到降维?

降维通常用于以下几类情况:

1. 数据可视化

  • 高维数据(>3维)无法直接可视化,常用降维将数据映射到2D或3D平面进行展示。

  • 常用方法:PCA、t-SNE、UMAP。

2. 数据压缩 / 存储优化

  • 高维数据存储代价大,降维后可减少冗余特征,节省存储空间。

3. 降噪(Denoising)

  • 高维特征空间中可能存在大量噪声维度,降维有助于突出主要结构。

4. 加速模型训练 / 避免维数灾难

  • 在监督学习或聚类中,太多维度容易导致过拟合训练缓慢,降维可提升效率和模型泛化能力。

5. 特征冗余或共线性问题

  • 特征间高度相关时,降维可消除多重共线性,提高建模稳定性。

二、降维的主要方法与应用场景

方法 类型 原理简介 适用场景
PCA 线性、无监督 主成分投影,保留最大方差方向 高维数据压缩、线性结构数据可视化
t-SNE 非线性、无监督 保持局部结构的概率分布相似性 聚类结构可视化、非线性流形数据展示
UMAP 非线性、无监督 通过图拓扑保持局部和整体结构 替代t-SNE,用于可视化/特征工程
LDA 线性、有监督 最大化类间方差与类内方差比 分类问题的有监督降维
Autoencoder 非线性、有监督 利用神经网络编码压缩再解码还原数据 图像降噪、生成模型、特征提取

三、t-SNE vs PCA:可视化对比分析

1. 适用数据集

以MNIST(手写数字图像,784维)或Iris数据集(4维)为例,我们可以观察两者的区别。

2. 可视化效果(以MNIST为例)

PCA 可视化:
  • 优点:快速,线性变换,可解释性强。

  • 缺点:只能保留全局最大方差方向,聚类不明显,容易"混团"。

t-SNE 可视化:
  • 优点:保留局部结构,同类样本聚得更紧,异类分得更开。

  • 缺点:

    • 非线性变换,不能用于后续建模;

    • 随机性大(不同run结果可能不同);

    • 参数敏感,尤其是perplexity

可视化示意图

方法 可视化效果简述
PCA 线性投影,点分布均匀,类聚不明显
t-SNE 同类样本成簇,聚类轮廓清晰

PCA

t-SNE

四、实践建议:如何选用降维方法?

场景 建议方法 理由
数据预处理 PCA 快速提取主成分,增强模型泛化性
可视化非线性聚类结构 t-SNE / UMAP 更好展示局部结构,直观展示聚类效果
图像/文本压缩或编码 Autoencoder 可自适应学习低维特征表达
有标签分类建模前特征压缩 LDA 结合类别信息降维,提高类别区分能力

@浙大疏锦行

相关推荐
C137的本贾尼8 分钟前
(每日一道算法题)二叉树剪枝
算法·机器学习·剪枝
Blossom.11813 分钟前
使用Python和Flask构建简单的机器学习API
人工智能·python·深度学习·目标检测·机器学习·数据挖掘·flask
Love__Tay1 小时前
【学习笔记】Python金融基础
开发语言·笔记·python·学习·金融
半导体守望者1 小时前
ADVANTEST R3764 66 R3765 67爱德万测试networki connection programming网络程序设计手册
经验分享·笔记·功能测试·自动化·制造
BUG收容所所长2 小时前
栈的奇妙世界:从冰棒到算法的华丽转身
前端·javascript·算法
有风南来2 小时前
算术图片验证码(四则运算)+selenium
自动化测试·python·selenium·算术图片验证码·四则运算验证码·加减乘除图片验证码
wangjinjin1802 小时前
Python Excel 文件处理:openpyxl 与 pandas 库完全指南
开发语言·python
XRZaaa2 小时前
常见排序算法详解与C语言实现
c语言·算法·排序算法
@我漫长的孤独流浪2 小时前
数据结构测试模拟题(4)
数据结构·c++·算法
智驱力人工智能2 小时前
智慧零售管理中的客流统计与属性分析
人工智能·算法·边缘计算·零售·智慧零售·聚众识别·人员计数