机器学习数学公式推导之降维

文章目录

降维
- [线性降维-主成分分析 PCA](#线性降维-主成分分析 PCA)
- - 损失函数
  - [SVD 与 PCoA](#SVD 与 PCoA)
  - [SVD 的基本形式](#SVD 的基本形式)
  - [SVD 的计算](#SVD 的计算)
  - p-PCA
- 小结

python 复制代码

P22 (系列五) 降维1-背景

本文参考 B站UP: shuhuai008 🌹🌹

降维

我们知道，解决过拟合的问题除了正则化和添加数据之外，降维就是最好的方法。降维的思路来源于维度灾难的问题，我们知道 n n n 维球的体积为：
C R n CR^n CRn

那么在球体积与边长为 2 R 2R 2R 的超立方体比值为：
lim ⁡ n → 0 C R n 2 n R n = 0 \lim\limits_{n\rightarrow0}\frac{CR^n}{2^nR^n}=0 n→0lim2nRnCRn=0

这就是所谓的维度灾难 ，在高维数据中，主要样本都分布在立方体的边缘，所以数据集更加稀疏。

降维的算法分为：

直接降维，特征选择
线性降维，PCA，MDS等
分线性，流形包括 Isomap，LLE 等

python 复制代码

P23  (系列五)  降维2-样本均值 & 样本方差矩阵

D a t a : X = { x 1 , x 2 ... ... x N } N x p T = [ x 1 T x 2 T . . . x N T ] = [ x 11 x 12 ⋯ x 1 p x 21 x 22 ⋯ x 2 p ⋮ ⋱ ⋮ x n 1 ⋯ x n p ] N x p X i 属于 R P i = 1 , 2 ... ... N Data: X= \left\{ {x_1,x_2......x_N}\right\}{Nxp}^{T}= \begin{bmatrix} x_1^T \\ x_2^T \\ ... \\ x_N^T \end{bmatrix} =\begin{bmatrix} x{11} & x_{12} \cdots & x_{1p} \\ x_{21} & x_{22} \cdots & x_{2p}\\ \vdots & \ddots & \vdots \\ x_{n1} & \cdots & x_{np} \end{bmatrix}_{N x p}\\ X_i属于\mathbb{R}^P \\ i=1,2......N Data:X={x1,x2......xN}NxpT= x1Tx2T...xNT = x11x21⋮xn1x12⋯x22⋯⋱⋯x1px2p⋮xnp NxpXi属于RPi=1,2......N

为了方便，我们首先将协方差矩阵（数据集）写成中心化的形式：
S = 1 N ∑ i = 1 N ( x i − x ‾ ) ( x i − x ‾ ) T = 1 N ( x 1 − x ‾ , x 2 − x ‾ , ⋯ , x N − x ‾ ) ( x 1 − x ‾ , x 2 − x ‾ , ⋯ , x N − x ‾ ) T = 1 N ( X T − 1 N X T I N 1 I N 1 T ) ( X T − 1 N X T I N 1 I N 1 T ) T = 1 N X T ( E N − 1 N I N 1 I 1 N ) ( E N − 1 N I N 1 I 1 N ) T X = 1 N X T H N H N T X = 1 N X T H N H N X = 1 N X T H X \begin{align}S&=\frac{1}{N}\sum\limits_{i=1}^N(x_i-\overline{x})(x_i-\overline{x})^T\nonumber\\ &=\frac{1}{N}(x_1-\overline{x},x_2-\overline{x},\cdots,x_N-\overline{x})(x_1-\overline{x},x_2-\overline{x},\cdots,x_N-\overline{x})^T\nonumber\\ &=\frac{1}{N}(X^T-\frac{1}{N}X^T\mathbb{I}{N1}\mathbb{I}{N1}^T)(X^T-\frac{1}{N}X^T\mathbb{I}{N1}\mathbb{I}{N1}^T)^T\nonumber\\ &=\frac{1}{N}X^T(E_N-\frac{1}{N}\mathbb{I}{N1}\mathbb{I}{1N})(E_N-\frac{1}{N}\mathbb{I}{N1}\mathbb{I}{1N})^TX\nonumber\\ &=\frac{1}{N}X^TH_NH_N^TX\nonumber\\ &=\frac{1}{N}X^TH_NH_NX=\frac{1}{N}X^THX \end{align} S=N1i=1∑N(xi−x)(xi−x)T=N1(x1−x,x2−x,⋯,xN−x)(x1−x,x2−x,⋯,xN−x)T=N1(XT−N1XTIN1IN1T)(XT−N1XTIN1IN1T)T=N1XT(EN−N1IN1I1N)(EN−N1IN1I1N)TX=N1XTHNHNTX=N1XTHNHNX=N1XTHX

这个式子利用了中心矩阵 $H$ 的对称性，这也是一个投影矩阵。

python 复制代码

P24（系列五） 降维3-PCA-最大投影方差

线性降维-主成分分析 PCA

M e a n : x ‾ = 1 N ∑ i = 1 N x i = 1 N X T I N C o v a r i a n c e : S = 1 N ∑ i = 1 N ( x i − x ‾ ) ( x i − x ‾ ) T = 1 N X T H X Mean: \overline{x}=\frac{1}{N}\sum\limits_{i=1}^{N}x_i= \frac{1}{N}X^T\mathbb{I}N \\ Covariance :S=\frac{1}{N}\sum\limits{i=1}^{N}(x_i-\overline{x})(x_i-\overline{x})^T\nonumber\\=\frac{1}{N}X^THX Mean:x=N1i=1∑Nxi=N1XTINCovariance:S=N1i=1∑N(xi−x)(xi−x)T=N1XTHX

一个中心：原始特征重构

两个基本点：最大投影方差，最小重构距离

x在u1上的投影。

损失函数

主成分分析中，我们的基本想法是将所有数据投影到一个字空间中，从而达到降维的目标，为了寻找这个子空间，我们基本想法是：

所有数据在子空间中更为分散
损失的信息最小，即：在补空间的分量少
指向量维度改变，而是只选取u1-uq这q个向量作为基 ，删掉uq+1到 u p u_p up,这样这q个p维向量所张成的线性空间维度
关于重构向量和原始向量的维度问题

python 复制代码

P25 (系列五)降维4-PCA-最小重构代价

原来的数据很有可能各个维度之间是相关的，于是我们希望找到一组 p p p 个新的线性无关的单位基 u i u_i ui，降维就是取其中的 q q q 个基。于是对于一个样本 x i x_i xi，经过这个坐标变换后(开始重构)：
x i ^ = ∑ i = 1 p ( u i T x i ) u i = ∑ i = 1 q ( u i T x i ) u i + ∑ i = q + 1 p ( u i T x i ) u i \hat{x_i}=\sum\limits_{i=1}^p(u_i^Tx_i)u_i=\sum\limits_{i=1}^q(u_i^Tx_i)u_i+\sum\limits_{i=q+1}^p(u_i^Tx_i)u_i xi^=i=1∑p(uiTxi)ui=i=1∑q(uiTxi)ui+i=q+1∑p(uiTxi)ui

对于数据集来说，我们首先将其中心化然后再去上面的式子的第一项，并使用其系数的平方平均作为损失函数并最大化：

J = 1 N ∑ i = 1 N ∑ j = 1 q ( ( x i − x ‾ ) T u j ) 2 = ∑ j = 1 q u j T S u j , s . t . u j T u j = 1 \begin{align}J&=\frac{1}{N}\sum\limits_{i=1}^N\sum\limits_{j=1}^q((x_i-\overline{x})^Tu_j)^2\nonumber\\ &=\sum\limits_{j=1}^qu_j^TSu_j\ ,\ s.t.\ u_j^Tu_j=1 \end{align} J=N1i=1∑Nj=1∑q((xi−x)Tuj)2=j=1∑qujTSuj , s.t. ujTuj=1

由于每个基都是线性无关的，于是每一个 u j u_j uj 的求解可以分别进行，使用拉格朗日乘子法：
a r g m a x u j L ( u j , λ ) = a r g m a x u j u j T S u j + λ ( 1 − u j T u j ) \mathop{argmax}{u_j}L(u_j,\lambda)=\mathop{argmax}{u_j}u_j^TSu_j+\lambda(1-u_j^Tu_j) argmaxujL(uj,λ)=argmaxujujTSuj+λ(1−ujTuj)

于是：
S u j = λ u j Su_j=\lambda u_j Suj=λuj

可见，我们需要的基就是协方差矩阵的本征矢。损失函数最大取在本征值前 q q q 个最大值。

下面看其损失的信息最少这个条件，同样适用系数的平方平均作为损失函数，并最小化：
J = 1 N ∑ i = 1 N ∑ j = q + 1 p ( ( x i − x ‾ ) T u j ) 2 = ∑ j = q + 1 p u j T S u j , s . t . u j T u j = 1 \begin{align}J&=\frac{1}{N}\sum\limits_{i=1}^N\sum\limits_{j=q+1}^p((x_i-\overline{x})^Tu_j)^2\nonumber\\ &=\sum\limits_{j=q+1}^pu_j^TSu_j\ ,\ s.t.\ u_j^Tu_j=1 \end{align} J=N1i=1∑Nj=q+1∑p((xi−x)Tuj)2=j=q+1∑pujTSuj , s.t. ujTuj=1

同样的：
a r g m i n u j L ( u j , λ ) = a r g m i n u j u j T S u j + λ ( 1 − u j T u j ) \mathop{argmin}{u_j}L(u_j,\lambda)=\mathop{argmin}{u_j}u_j^TSu_j+\lambda(1-u_j^Tu_j) argminujL(uj,λ)=argminujujTSuj+λ(1−ujTuj)

损失函数最小取在本征值剩下的个最小的几个值。数据集的协方差矩阵可以写成 S = U Λ U T S=U\Lambda U^T S=UΛUT，直接对这个表达式当然可以得到本征矢。

结论：

最小投影方差 J = 1 N ∑ i = 1 N ( ( x i − x ‾ ) T u 1 ) 2 J=\frac{1}{N} \sum\limits_{i=1}^N((x_i-\overline{x})^Tu_1)^2 J=N1i=1∑N((xi−x)Tu1)2

最小重构代价 J = ∑ i = 1 N ∣ ∣ x i − x ^ i ∣ ∣ = ∑ k = q + 1 p u k T S u k J=\sum\limits_{i=1}^N||x_i-\hat x_i||=\sum\limits_{k=q+1}^pu_k^TSu_k J=i=1∑N∣∣xi−x^i∣∣=k=q+1∑pukTSuk

python 复制代码

P26 (系列五) 降维5-SVD角度开看PCA和PCoA

SVD 与 PCoA

SVD（奇异值分解）是对任意形状的矩阵进行的一种分解方法，可以看作是非方阵的矩阵的"特征分解"的推广。SVD 提供了一种将矩阵分解为三个特定形式矩阵乘积的方法，这三个矩阵分别是：一个正交矩阵、一个对角矩阵（对角元素称为奇异值，且按从大到小的顺序排列），以及另一个正交矩阵的转置。

SVD 的基本形式

对于任意 m × n m \times n m×n 矩阵 A A A（其中 m m m 和 n n n 不一定相等），SVD 将其分解为：

A = U Σ V T A = U \Sigma V^T A=UΣVT

其中：

U U U 是一个 m × m m \times m m×m 的正交矩阵，其列向量是 A A T AA^T AAT（ A A A 的自乘转置）的特征向量，称为左奇异向量。
Σ \Sigma Σ 是一个 m × n m \times n m×n 的矩阵，其对角线上的元素是奇异值（非负且按从大到小排列），其余元素为0。
V V V 是一个 n × n n \times n n×n 的正交矩阵，其列向量是 A T A A^TA ATA（ A A A 的转置自乘）的特征向量，称为右奇异向量。
V T V^T VT 是 V V V 的转置。

SVD 的计算

SVD 的计算通常通过数值方法实现，如 Golub-Reinsch 算法（基于 QR 分解的方法）或分治法。这些算法在大多数编程语言的标准数学库中都有实现，如 Python 的 NumPy 库中的 numpy.linalg.svd 函数。

下面使用实际训练时常常使用的 SVD 直接求得这个 q q q 个本征矢。

对中心化后的数据集进行奇异值分解：
H X = U Σ V T , U T U = E N , V T V = E p , Σ : N × p HX=U\Sigma V^T,U^TU=E_N,V^TV=E_p,\Sigma:N\times p HX=UΣVT,UTU=EN,VTV=Ep,Σ:N×p

于是：
S = 1 N X T H X = 1 N X T H T H X = 1 N V Σ T Σ V T S=\frac{1}{N}X^THX=\frac{1}{N}X^TH^THX=\frac{1}{N}V\Sigma^T\Sigma V^T S=N1XTHX=N1XTHTHX=N1VΣTΣVT

因此，我们直接对中心化后的数据集进行 SVD，就可以得到特征值和特征向量 V V V，在新坐标系中的坐标就是：
H X ⋅ V HX\cdot V HX⋅V

由上面的推导，我们也可以得到另一种方法 PCoA 主坐标分析，定义并进行特征值分解：
T = H X X T H = U Σ Σ T U T T=HXX^TH=U\Sigma\Sigma^TU^T T=HXXTH=UΣΣTUT

由于：
T U Σ = U Σ ( Σ T Σ ) TU\Sigma=U\Sigma(\Sigma^T\Sigma) TUΣ=UΣ(ΣTΣ)

于是可以直接得到坐标。这两种方法都可以得到主成分，但是由于方差矩阵是 p × p p\times p p×p 的，而 T T T 是 N × N N\times N N×N 的，所以对样本量较少的时候可以采用 PCoA的方法。

坐标矩阵就是T的特征向量组成的矩阵

python 复制代码

P27 (系列五) 降维6-主成分分析(PCA)  以概率角度

p-PCA

下面从概率的角度对 PCA 进行分析，概率方法也叫 p-PCA。我们使用线性模型，类似之前 LDA，我们选定一个方向，对原数据 x ∈ R p x\in\mathbb{R}^p x∈Rp ，降维后的数据为 z ∈ R q , q < p z\in\mathbb{R}^q,q<p z∈Rq,q<p。降维通过一个矩阵变换（投影）进行：
z ∼ N ( O q 1 , I q q ) x = W z + μ + ε ε ∼ N ( 0 , σ 2 I p p ) \begin{align} z&\sim\mathcal{N}(\mathbb{O}{q1},\mathbb{I}{qq})\\ x&=Wz+\mu+\varepsilon\\ \varepsilon&\sim\mathcal{N}(0,\sigma^2\mathbb{I}_{pp}) \end{align} zxε∼N(Oq1,Iqq)=Wz+μ+ε∼N(0,σ2Ipp)

对于这个模型，我么可以使用期望-最大（EM）的算法 进行学习，在进行推断的时候需要求得 p ( z ∣ x ) p(z|x) p(z∣x)，推断的求解过程和线性高斯模型类似。

E ( X 2 ) − E 2 ( X ) = V a r ( X ) E(X^2)-E^2(X)=Var(X) E(X2)−E2(X)=Var(X)

p ( z ∣ x ) = p ( x ∣ z ) p ( z ) p ( x ) E [ x ] = E [ W z + μ + ε ] = μ V a r [ x ] = W W T + σ 2 I p p ⟹ p ( z ∣ x ) = N ( W T ( W W T + σ 2 I ) − 1 ( x − μ ) , I − W T ( W W T + σ 2 I ) − 1 W ) \begin{align} &p(z|x)=\frac{p(x|z)p(z)}{p(x)}\\ &\mathbb{E}[x]=\mathbb{E}[Wz+\mu+\varepsilon]=\mu\\ &Var[x]=WW^T+\sigma^2\mathbb{I}_{pp}\\ \Longrightarrow p(z|x)=\mathcal{N}(W^T(WW^T+&\sigma^2\mathbb{I})^{-1}(x-\mu),\mathbb{I}-W^T(WW^T+\sigma^2\mathbb{I})^{-1}W) \end{align} ⟹p(z∣x)=N(WT(WWT+p(z∣x)=p(x)p(x∣z)p(z)E[x]=E[Wz+μ+ε]=μVar[x]=WWT+σ2Ippσ2I)−1(x−μ),I−WT(WWT+σ2I)−1W)

小结

降维是解决维度灾难和过拟合的重要方法，除了直接的特征选择外，我们还可以采用算法的途径对特征进行筛选，线性的降维方法以 PCA 为代表，在 PCA 中，我们只要直接对数据矩阵进行中心化然后求奇异值分解或者对数据的协方差矩阵进行分解就可以得到其主要维度。非线性学习的方法如流形学习将投影面从平面改为超曲面。