矩阵奇异值 - 技术栈

一、ATA

任给一个矩阵A，都有： ATA 为一个对称矩阵

例子：A为一个m×n的矩阵，A的转置为一个n×m的矩阵

对称矩阵的重要性质如下：

① 对称矩阵的特征值全为实数（实数特征根）

② 任意一个n阶对称矩阵，一定有代数重数=几何重数

若对称矩阵A的某个特征值的重数=k，则对应的几何重数=k
即一个特征根的重数若为k，则：
该特征根可找到对应线性无关的特征向量个数一定也为k

③ 任意一个n阶对称矩阵，一定有n个线性无关的特征值向量

如果无重根，即n个特征值对应n个线性无关的特征向量
倘若有k重根，也该重根必有k个线性无关的特征向量
倘若有k个重根，可理解为k个相同的特征值而已（总的特征值个数还是n）
也就是：一定有n个特征值，一定有n个线性无关的特征值向量

④ 任意一个n阶对称矩阵，一定能相似对角化

任意一个n阶对称矩阵，一定有n个线性无关的特征值向量
所以对称矩阵一定满足对角化条件，即：
任意一个n阶对称矩阵A，都有 A=PDP−1
任意一个n阶对称矩阵A，都有相似矩阵为对角矩阵的矩阵
对角矩阵D上，主对角线上的元素即为A或D的特征值

⑤ 任意一个n阶对称矩阵，一定能正交对角化

不同特征值对应的特征向量是彼此正交的
彼此正交是指：两个向量的乘积=0，即两个向量相互垂直
也就是： A=PDP−1 中的 P 为正交矩阵

二、ATA 的特征值与奇异值

由于 ATA 相乘后得到的一定是一个对称矩阵（n×n）

那么 ATA 一定有：

n个实数特征值，记为： λ1,λ2,...,λn

n个线性无关的特征向量，记为： v1→,v2→,...,vn→

也就是： v1→,v2→,...,vn→ 为n个相互垂直的特征向量

那么此时称： λi 为 ATA 的奇异值

记作： σi=λi

三、ATA 奇异值的非负性

结论：ATA的特征值 λi≥0

从而可得：ATA的奇异值 λi≥0

即： σi≥0

推导过程如下：

矩阵A左乘特征向量 vi→ 得到一个新的向量

那么这个新的向量模的平方记为： ||Avi→||2

因为两个相同的向量点乘就等于该向量模的平方

a→·a→=||a→||×||a→||×cos(0)=||a→||×||a→||×1=||a→||2

那么： ||Avi→||2=(Avi→)(Avi→)

将两个向量的点乘转为两个矩阵相乘，即为：

(Avi→)(Avi→)=(Avi)T(Avi)

将转置打开得： (Avi)T(Avi)=viTATAvi

由矩阵乘法结合律可得： viTATAvi=viT(ATAvi)

特征值的定义为： Axi→=λxi→

因为 ATA 的特征值为： λi

于是： ATAvi=λivi

从而： viT(ATAvi)=viTλivi

因为： λi 为一个常数，满足矩阵乘法交换律

于是： viTλivi=λiviTvi

接着： viTvi 转为两个向量的点乘 vi→·vi→=||vi||2

那么： λiviTvi=λi||vi||2

此时我们将：特征向量进行归一化处理

也就是将：v1→,v2→,...,vn→ 转为n个相互垂直的单位特征向量

记为： u1→,u2→,..,un→

那么将 vi 替换成 ui 后为： λi||ui||2

因为： ui 为相互垂直的单位特征向量

所以：每个 ui 的模长为1，于是： ||ui||2=1

那么： λi||ui||2=λi

最终： ||Avi→||2=λi

由于： ||Avi→||2 为非负数（一个向量的模长的平方为非负数）

所以： λi 也为非负数，即 λi≥0

四、换个角度看ATA的奇异值

由上面可知： σi=λi=||Avi→||2=||Avi→||

那么可以说：奇异值 σi 就是这个向量 Avi→ 的模长

也可以说：矩阵A左乘 ATA 特征向量 vi 后

得到该新向量的模长 (||Avi→||) 即为 ATA 的奇异值