机器学习(二十五) 降维：主成分分析(PCA)及特征值分解

主成分分析 (Principal Component Analysis，简称PCA) 是最常用的一种降维方法。先考虑这样一个问题：++对于正交属性空间中的样本点，如何用一个超平面对所有样本进行恰当的表达？++

<什么是正交属性空间?是指属性方向相互垂直、属性向量之间内积为零(无冗余信息)的正交关系构成的向量空间 (常用于降维、特征提取和数据压缩)。

PCA核心逻辑的直观理解： 通过"正交变换"将原始属性映射到正交属性空间，在此正交属性空间找到最大化方差方向的主成分(正交基，彼此正交，避免特征冗余)。
主成分(正交基)是对原始属性的线性组合 (即在超平面上的投影 W*xi)，且满足如下所述的"最近重构性"和"最大可分性"，实现对样本的高效降维。例如，将高维数据投影到正交基上，用少数维度捕捉数据的主要信息，同时减少计算复杂度。 >

若存在这样的超平面，那么它应具有这样的性质：

最近重构性：样本点到这个超平面的距离都尽可能近 (投影误差最小，保留原始数据的主要信息)；

最大可分性：样本点在这个超平面上的投影能尽可能分开。

有趣的是，基于最近重构性和最大可分性，能分别得到主成分分析的两种等价推导。

25.1 主成分分析(PCA)的推导与优化目标

假定数据样本进行了中心化，即Σ(i)xi=0；

将维度降低到d'<d，低维坐标系为 {w1, w2, ..., wd')，其中++wi是标准正交基向量，||wi||2=1 且wiᵀwj=0 (i≠j，内积为零)++ <xi与wi是相同的维度d>,

++则样本点xi在低维坐标系的投影为 zi=(zi1, zi2, ..., zid')，其中 zij=wjᵀxi，是样本xi在低维坐标系下第j维的坐标(投影)++ ，若基于zi重构xi，则会得到 xi* = Σ(j=1,d')zijwj = zi1w1 + zi2w2 + ... + zid'wd'

因为zij=wjᵀxi

Σ(j=1,d')zijwj = Σ(j=1,d')(wjᵀxi)wj = Σ(j=1,d')wj(wjᵀxi) = (Σ(j=1,d')wjwjᵀ)xi = WWᵀxi

<WWᵀ → d'个[d×d]相加，WWᵀxi → [d×d]·d维列向量 → d维列向量 → xi*>

考虑全部样本集，原样本xi与基于投影点zi重构的样本xi*之间距离的总和为 Σ(i=1,m)||xi*-xi||^2

= Σ(i=1,m) ||(Σ(j=1,d')zijwj) - xi||^2 = Σ(i=1,m) ||WWᵀxi - xi||^2

||WWᵀxi - xi||^2 = (WWᵀxi - xi)ᵀ(WWᵀxi - xi) = ||WWᵀxi||^2 -2xiᵀWWᵀxi + ||xi||^2

||WWᵀxi||^2 = (WWᵀxi)ᵀ(WWᵀxi) = xiᵀWWᵀWWᵀxi = xiᵀWWᵀxi <WᵀW=I>

所以有 Σ(i=1,m)||xi*-xi||^2 = Σ(i=1,m)[xiᵀWWᵀxi -2xiᵀWWᵀxi] + const

= Σ(i=1,m)(-xiᵀWWᵀxi) + const

Σ(i=1,m)xiᵀWWᵀxi =?= tr(Wᵀ(Σ(i=1,m)xixiᵀ)W)

Σ(i=1,m)||xi*-xi||^2 ∝ -tr(Wᵀ(Σ(i=1,m)xixiᵀ)W)

其中W=(w1, w2, ..., wd)。根据最近重构性，Σ(i=1,m)||xi*-xi||^2 应被最小化，考虑到wj是标准正交基，Σ(i)xixiᵀ是协方差矩阵，