PCA主成分分析学习

前言

PCA主成分分析作为一种信号处理方法，被用于多种信号处理场景。博主主要聚焦于信号处理，第一次接触到PCA时，是想将他用于去噪，保留主要信号成分，去掉噪声信号。但是PCA的应用不止这么一点，其还可以用于图像压缩，加速机器学习算法（利用PCA进行降维，再进行训练），去除特征的相关性等，还有很多博主不知道的应用，毕竟学无止境^-^；在这里作为学习笔记进行整理，如果有学习更深入的大佬，可指点指点。

一、什么是 PCA （ Principal Component Analysis ）

PCA 是一种线性降维方法。顾名思义，就是对高维信号进行降维。一般的高维信号包括那些？我所了解的有多通道传感器采集的信号（这里目前物理世界最常见的形式为n*m的二维矩阵，即多个数据采集通道在固定采样率下不同时间采样的信号）；机器学习，深度学习中对目标进行训练时，提取的多维特征（这里就不只是矩阵了，可能会涉及到高维矩阵；通常指二维以上）。

更严格地说：

PCA 通过正交线性变换，把原始数据映射到一组新的、彼此正交的坐标轴上，使得：

在新坐标轴上第 1 个方向上的数据方差最大
第 2 个方向在与第 1 个正交的前提下方差最大
依此类推，有多个方向，且每个方向与其他方向都是正交的，其方差为该方向下的最大方差。

这些新坐标轴就叫做 主成分（ Principal Components ）。我个人在这里的理解就是，原始信号中存在这多个成分，在进行PCA之前，这些成分是相互混杂，不易分清。而当进行了PCA之后，就可以将这些成分信息两两正交的进行分离。而且分离后的信号在每个方向上的方差最大，也就是说，这是当前信号分离的极限，每个分离信号都保存了其最大可能的信息。

（用AI整理了一下我上面的描述思想为下：PCA通过正交变换，将线性混合的源成分分离为互不相关的主成分，并按方差（信息量）从大到小排列。每个主成分在与其前驱正交的约束下，捕获了剩余数据中的最大变异。这种变换达到了线性分离的"极限"------无法再用其他正交方向获得更多信息。）

因此，可以提炼出PCA 的三个核心关键词如下：