【Python机器学习】利用PCA来简化数据——降维技术

通常情况下,我们会显示三维图像或者只显示其相关特征,但是数据往往拥有超出显示能力的更多特征。数据显示并非大规模特征下的唯一难题,对数据进行简化还有以下的原因:

1、使得数据集更易使用;

2、将死很多算法的计算开销;

3、去除噪声;

4、使得结果易懂。

在已标注和未标注的数据上都有降维技术。这里我们主要关注的是未标注数据上的降维技术,该技术同时也可以应用于已标注的数据。

第一种降维方法称为主成分分析PCA)。在PCA中,数据从原来的坐标系转换到了新的坐标系,新坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方差最大的方向;第二个新坐标轴的选择和第一个坐标轴正交且具有最大方差的方向。该过程一直重复,重复次数为原始数据中特征的数目。我们会发现,大部分方差都包含在最前面的几个新坐标轴中。因此,我们可以忽略余下的坐标轴,即对数据进行了降维处理。

另一种降维技术是因子分析 。在因子分析中,我们假设在观察数据的生成中有一些观察不到的隐变量。假设观察数据是这些隐变量和某些噪声的线性组合。那么隐变量的数据可能比观察数据的数目少,也就是说通过找到隐变量就可以实现数据的降维。因子分析已经应用于社会科学、金融及其他领域了。

还有一种降维技术就是独立成分分析(ICA)。ICA假设数据使用N个数据源生成的,这一点和因子分析有些类似。假设数据为多个数据源的混合观察结果,这些数据源之间在统计上是相互独立的,而在PCA中只假设数据是不相关的。同因子分析一样,如果数据源的数目少于观察数据的数目,则可以实现降维过程。

在上述3中降维技术中,PCA的应用目前最为广泛。

相关推荐
WSSWWWSSW3 分钟前
华为昇腾NPU卡 文生视频[T2V]大模型WAN2.1模型推理使用
人工智能·大模型·音视频·显卡·文生视频·文生音频·文生音乐
数据要素X10 分钟前
【数据架构10】数字政府架构篇
大数据·运维·数据库·人工智能·架构
旧时光巷15 分钟前
【Flask 基础 ①】 | 路由、参数与模板渲染
后端·python·零基础·flask·web·模板渲染·路由系统
Ronin-Lotus23 分钟前
深度学习篇---PaddleDetection模型选择
人工智能·深度学习
java1234_小锋24 分钟前
【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 微博评论IP地图可视化分析实现
python·自然语言处理·flask
qq_40999093?30 分钟前
安全和AI方向的学习路线
人工智能·安全
Blossom.11832 分钟前
基于深度学习的医学图像分析:使用CycleGAN实现图像到图像的转换
人工智能·深度学习·目标检测·机器学习·分类·数据挖掘·语音识别
golitter.38 分钟前
python的异步、并发开发
开发语言·python
SirLancelot142 分钟前
数据结构-Set集合(一)Set集合介绍、优缺点
java·开发语言·数据结构·后端·算法·哈希算法·set
LZQqqqqo42 分钟前
c#_文件的读写 IO
开发语言·c#