PCA主成分分析法(最大投影方差,最小重构距离,SVD角度)

统计分析中,数据的变量之间可能存在相关性,以致增加了分析的难度。于是,考虑由少数不相关的变量来代替相关的变量,用来表示数据,并且要求能够保留数据中的大部分信息。

在信号处理领域,信号具有较大方差,噪声具有较小方差,因此,我们不难引出PCA的目标,即最大化投影方差,即让数据在主轴上投影的方差最大.

最大投影方差

推导过程

给定一组数据点,其中每个向量均为列向量

中心化为

由于向量内积在几何上表示为第一个向量投影到第二个向量上的长度,又由于投影之后均值为0,因此向量在w(单位方向向量)上的投影方差可以表示为

其中

是样本协方差矩阵,记为,(协方差矩阵计算的是不同维度之间的协方差而不是不同样本之间的)且w是单位方向向量,有

引入拉格朗日乘子,对w求导令其等于0

此时

即样本投影后的方差就是协方差矩阵的特征值,最佳投影方向就是最大特征值所对应的特征向量.

求解方法

(1)样本数据中心化处理

(2)求样本协方差矩阵

(3)对协方差矩阵进行特征值分解,将特征值从大到小排列

(4)取特征值前d大对应的特征向量,并将n维样本映射到d维

降维后的信息占比

最小重构距离

表示样本投影后的坐标值

表示样本投影后降维选取前q大的坐标值

目标是令

最小

展开

由于xi已经中心化过了

所以最小重构距离和最大投影方差是等价的

SVD角度

思路:不求样本的协方差矩阵,而是对中心化后的数据进行奇异值分解

对中心化后的数据进行奇异值分解

样本协方差矩阵为

对照特征值分解的S

得到

G=V

K=

从 SVD 角度看,PCA 的投影矩阵可以直接从 V 中获取。V 的列向量就是协方差矩阵 S 的特征向量,而奇异值的平方与协方差矩阵的特征值成正比。选取前 k 个右奇异向量构成投影矩阵,就能够实现数据的降维。

参考

<统计学习方法>

<百面机器学习>

(系列五) 降维1-背景_哔哩哔哩_bilibili

相关推荐
Black蜡笔小新13 小时前
终结“监控盲区”:EasyGBS视频质量诊断技术多场景应用设计
人工智能·音视频·视频质量诊断
聊聊科技13 小时前
打破固化编曲思维,AI编曲软件为原创音乐人注入制作歌曲伴奏新创意
人工智能
智驱力人工智能13 小时前
货车违规变道检测 高速公路安全治理的工程实践 货车变道检测 高速公路货车违规变道抓拍系统 城市快速路货车压实线识别方案
人工智能·opencv·算法·安全·yolo·目标检测·边缘计算
乾元13 小时前
实战案例:解析某次真实的“AI vs. AI”攻防演练
运维·人工智能·安全·web安全·机器学习·架构
罗湖老棍子13 小时前
【例9.18】合并石子(信息学奥赛一本通- P1274)从暴搜到区间 DP:石子合并的四种写法
算法·动态规划·区间dp·区间动态规划
AiTop10013 小时前
智谱开源GLM-OCR:0.9B小模型在复杂文档处理登顶SOTA
人工智能·ai·aigc
晓晓不觉早13 小时前
OpenAI Codex App的推出:多代理工作流的新时代
人工智能·gpt
大数据在线13 小时前
硬件涨价超级周期:智算中心价值逻辑迎来重构
人工智能·数据中心·智算中心·内存涨价·曙光存储
2301_8107301013 小时前
python第四次作业
数据结构·python·算法
adam_life13 小时前
区间动态# P1880 [NOI1995] 石子合并】
算法