【机器学习教程】第02章：线性代数基础【下】

第02章：线性代数基础

前言

线性代数是现代数学的通用语言，也是机器学习的基石。在机器学习中，我们关注的焦点并非复杂的行列式计算或方程组求解，而是数据的表示 、空间的变换 、几何的度量 以及优化的方向。

本章将构建一套严谨、完整且直观的数学体系。我们将从向量空间的基本概念出发，深入理解线性组合、基、维度与秩等核心思想；从几何视角解析投影、正交与范数的本质；最终掌握适用于任意矩阵的奇异值分解 (SVD) 和伪逆理论。这些知识是深入理解后续算法（如 PCA、线性回归、神经网络优化）的必要前提。

2.4 矩阵分解理论

矩阵分解将复杂的矩阵表示为简单矩阵的乘积，揭示矩阵的内在结构。这是线性代数最强大的工具之一。

特征值分解：方阵的对角化

特征值与特征向量

对于方阵 A ∈ R n × n \mathbf{A} \in \mathbb{R}^{n \times n} A∈Rn×n，若存在非零向量 v \mathbf{v} v 和标量 λ \lambda λ 使得：

A v = λ v \mathbf{A}\mathbf{v} = \lambda \mathbf{v} Av=λv

则称 v \mathbf{v} v 为特征向量 (Eigenvector) ， λ \lambda λ 为对应的特征值 (Eigenvalue)。

几何意义 ： A \mathbf{A} A 作用在特征向量上，仅改变其长度（伸缩 λ \lambda λ 倍），不改变方向。特征向量是矩阵变换的"主轴"。

求解方法：

求解特征方程： det ⁡ ( A − λ I ) = 0 \det(\mathbf{A} - \lambda \mathbf{I}) = 0 det(A−λI)=0
对每个特征值 λ i \lambda_i λi，求解 ( A − λ i I ) v i = 0 (\mathbf{A} - \lambda_i \mathbf{I})\mathbf{v}_i = \mathbf{0} (A−λiI)vi=0 得到特征向量

特征值分解 (Eigenvalue Decomposition)

若方阵 A \mathbf{A} A 有 n n n 个线性无关的特征向量 v 1 , ... , v n \mathbf{v}_1, \ldots, \mathbf{v}_n v1,...,vn，对应特征值 λ 1 , ... , λ n \lambda_1, \ldots, \lambda_n λ1,...,λn，则 A \mathbf{A} A 可对角化为：

A = V Λ V − 1 \mathbf{A} = \mathbf{V} \boldsymbol{\Lambda} \mathbf{V}^{-1} A=VΛV−1

其中：

V = [ v 1 ⋯ v n ] \mathbf{V} = [\mathbf{v}_1 \cdots \mathbf{v}_n] V=[v1⋯vn]：特征向量矩阵
Λ = diag ( λ 1 , ... , λ n ) \boldsymbol{\Lambda} = \text{diag}(\lambda_1, \ldots, \lambda_n) Λ=diag(λ1,...,λn)：特征值对角矩阵

可对角化的条件：

A \mathbf{A} A 有 n n n 个线性无关的特征向量
实对称矩阵必定可对角化

谱定理 (Spectral Theorem)

对于实对称矩阵 A = A T ∈ R n × n \mathbf{A} = \mathbf{A}^T \in \mathbb{R}^{n \times n} A=AT∈Rn×n：

所有特征值都是实数
不同特征值对应的特征向量正交
必定存在正交对角化：

A = Q Λ Q T \mathbf{A} = \mathbf{Q} \boldsymbol{\Lambda} \mathbf{Q}^T A=QΛQT

其中 Q \mathbf{Q} Q 是正交矩阵（ Q T Q = I \mathbf{Q}^T\mathbf{Q} = \mathbf{I} QTQ=I）， Λ \boldsymbol{\Lambda} Λ 是特征值对角矩阵。

谱分解形式：

A = ∑ i = 1 n λ i q i q i T \mathbf{A} = \sum_{i=1}^n \lambda_i \mathbf{q}_i \mathbf{q}_i^T A=i=1∑nλiqiqiT

每一项 λ i q i q i T \lambda_i \mathbf{q}_i \mathbf{q}_i^T λiqiqiT 是秩1矩阵，代表沿方向 q i \mathbf{q}_i qi 的伸缩 λ i \lambda_i λi。

几何意义：对称矩阵的变换可以分解为：

旋转到特征向量方向（ Q T \mathbf{Q}^T QT）
沿各特征方向伸缩（ Λ \boldsymbol{\Lambda} Λ）
旋转回原坐标系（ Q \mathbf{Q} Q）

特征值的性质

tr ( A ) = ∑ i = 1 n λ i \text{tr}(\mathbf{A}) = \sum_{i=1}^n \lambda_i tr(A)=∑i=1nλi（迹等于特征值之和）
det ⁡ ( A ) = ∏ i = 1 n λ i \det(\mathbf{A}) = \prod_{i=1}^n \lambda_i det(A)=∏i=1nλi（行列式等于特征值之积）
A k = V Λ k V − 1 \mathbf{A}^k = \mathbf{V} \boldsymbol{\Lambda}^k \mathbf{V}^{-1} Ak=VΛkV−1（矩阵幂通过特征值简化）

正定矩阵

对称矩阵 A \mathbf{A} A 称为正定 (Positive Definite) ，如果对任意 x ≠ 0 \mathbf{x} \neq \mathbf{0} x=0：

x T A x > 0 \mathbf{x}^T \mathbf{A} \mathbf{x} > 0 xTAx>0

等价条件：

所有特征值 λ i > 0 \lambda_i > 0 λi>0
所有主子式（顺序主子式）大于零
存在可逆矩阵 L \mathbf{L} L 使得 A = L L T \mathbf{A} = \mathbf{L}\mathbf{L}^T A=LLT（Cholesky分解）

半正定 (Positive Semidefinite) ：将 > > > 改为 ≥ \geq ≥，即 x T A x ≥ 0 \mathbf{x}^T\mathbf{A}\mathbf{x} \geq 0 xTAx≥0，所有特征值 λ i ≥ 0 \lambda_i \geq 0 λi≥0。

几何意义：正定矩阵定义的二次型是"碗状"的，开口向上，有全局最小值。这是优化理论中凸函数的判定条件。

在机器学习中的应用：

协方差矩阵、Hessian矩阵（二阶导数矩阵）通常是半正定的
核矩阵（Gram矩阵）必须正定才能对应有效的核函数
正定性保证优化问题的凸性和数值稳定性

数值例子：2×2 对称矩阵的特征值分解

考虑矩阵

A = [ 3 1 1 3 ] \mathbf{A} = \begin{bmatrix} 3 & 1 \\ 1 & 3 \end{bmatrix} A=[3113]

求特征值：

det ⁡ ( A − λ I ) = det ⁡ [ 3 − λ 1 1 3 − λ ] = ( 3 − λ ) 2 − 1 = λ 2 − 6 λ + 8 = 0 \det(\mathbf{A} - \lambda \mathbf{I}) = \det\begin{bmatrix} 3-\lambda & 1 \\ 1 & 3-\lambda \end{bmatrix} = (3-\lambda)^2 - 1 = \lambda^2 - 6\lambda + 8 = 0 det(A−λI)=det[3−λ113−λ]=(3−λ)2−1=λ2−6λ+8=0

解得 λ 1 = 4 \lambda_1 = 4 λ1=4， λ 2 = 2 \lambda_2 = 2 λ2=2。

求特征向量：

λ 1 = 4 \lambda_1 = 4 λ1=4： ( A − 4 I ) v 1 = 0 (\mathbf{A} - 4\mathbf{I})\mathbf{v}_1 = \mathbf{0} (A−4I)v1=0
$− 1 1 1 − 1 \] \[ v 11 v 12 \] = 0 ⟹ v 1 = 1 2 \[ 1 1 \] \\begin{bmatrix} -1 \& 1 \\\\ 1 \& -1 \\end{bmatrix} \\begin{bmatrix} v_{11} \\\\ v_{12} \\end{bmatrix} = \\mathbf{0} \\implies \\mathbf{v}_1 = \\frac{1}{\\sqrt{2}}\\begin{bmatrix} 1 \\\\ 1 \\end{bmatrix} \[−111−1\]\[v11v12\]=0⟹v1=2 1\[11$
λ 2 = 2 \lambda_2 = 2 λ2=2：类似得 v 2 = 1 2 [ 1 − 1 ] \mathbf{v}_2 = \frac{1}{\sqrt{2}}\begin{bmatrix} 1 \\ -1 \end{bmatrix} v2=2 1[1−1]

正交对角化：

A = Q Λ Q T = 1 2 [ 1 1 1 − 1 ] [ 4 0 0 2 ] 1 2 [ 1 1 1 − 1 ] \mathbf{A} = \mathbf{Q}\boldsymbol{\Lambda}\mathbf{Q}^T = \frac{1}{\sqrt{2}}\begin{bmatrix} 1 & 1 \\ 1 & -1 \end{bmatrix} \begin{bmatrix} 4 & 0 \\ 0 & 2 \end{bmatrix} \frac{1}{\sqrt{2}}\begin{bmatrix} 1 & 1 \\ 1 & -1 \end{bmatrix} A=QΛQT=2 1[111−1][4002]2 1[111−1]

几何解释：

A \mathbf{A} A 将向量 [ 1 1 ] \begin{bmatrix} 1 \\ 1 \end{bmatrix} [11] 拉伸4倍（沿主轴方向）
将向量 [ 1 − 1 ] \begin{bmatrix} 1 \\ -1 \end{bmatrix} [1−1] 拉伸2倍（沿次轴方向）
这两个方向正交，构成 A \mathbf{A} A的主轴坐标系

验证：

v 1 T v 2 = 0 \mathbf{v}_1^T \mathbf{v}_2 = 0 v1Tv2=0 ✓（正交）
tr ( A ) = 6 = λ 1 + λ 2 \text{tr}(\mathbf{A}) = 6 = \lambda_1 + \lambda_2 tr(A)=6=λ1+λ2 ✓
det ⁡ ( A ) = 8 = λ 1 λ 2 \det(\mathbf{A}) = 8 = \lambda_1 \lambda_2 det(A)=8=λ1λ2 ✓

奇异值分解 (SVD)：任意矩阵的分解

SVD是线性代数中最强大的定理之一。与特征值分解仅适用于方阵不同，任意矩阵都可以进行奇异值分解。

SVD 定理

任意矩阵 A ∈ R m × n \mathbf{A} \in \mathbb{R}^{m \times n} A∈Rm×n 均可分解为：

A = U Σ V T \mathbf{A} = \mathbf{U} \boldsymbol{\Sigma} \mathbf{V}^T A=UΣVT

其中：

U ∈ R m × m \mathbf{U} \in \mathbb{R}^{m \times m} U∈Rm×m：左奇异向量 矩阵，正交矩阵（ U T U = I \mathbf{U}^T\mathbf{U} = \mathbf{I} UTU=I）
Σ ∈ R m × n \boldsymbol{\Sigma} \in \mathbb{R}^{m \times n} Σ∈Rm×n：奇异值 矩阵，对角线元素 σ 1 ≥ σ 2 ≥ ⋯ ≥ σ r > 0 \sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r > 0 σ1≥σ2≥⋯≥σr>0（ r = rank ( A ) r = \text{rank}(\mathbf{A}) r=rank(A)），其余为零
V ∈ R n × n \mathbf{V} \in \mathbb{R}^{n \times n} V∈Rn×n：右奇异向量 矩阵，正交矩阵（ V T V = I \mathbf{V}^T\mathbf{V} = \mathbf{I} VTV=I）

几何意义：三步变换

SVD将任意线性变换分解为三个步骤：

旋转： V T \mathbf{V}^T VT 将输入空间旋转到新的标准正交基
拉伸： Σ \boldsymbol{\Sigma} Σ 沿新的坐标轴方向进行非均匀拉伸（各方向拉伸比例为奇异值）
旋转： U \mathbf{U} U 将拉伸后的空间旋转到输出空间

关键洞察：任何线性变换本质上都是"旋转-拉伸-旋转"的组合。

与特征值分解的关系

对于实对称矩阵 A = A T \mathbf{A} = \mathbf{A}^T A=AT，SVD 退化为特征值分解：

左右奇异向量相同： U = V \mathbf{U} = \mathbf{V} U=V
奇异值等于特征值的绝对值： σ i = ∣ λ i ∣ \sigma_i = |\lambda_i| σi=∣λi∣

奇异值的计算

奇异值 σ i \sigma_i σi 是 A T A \mathbf{A}^T\mathbf{A} ATA 或 A A T \mathbf{A}\mathbf{A}^T AAT 的特征值的平方根：

A T A = V Σ T Σ V T \mathbf{A}^T\mathbf{A} = \mathbf{V} \boldsymbol{\Sigma}^T \boldsymbol{\Sigma} \mathbf{V}^T ATA=VΣTΣVT

A A T = U Σ Σ T U T \mathbf{A}\mathbf{A}^T = \mathbf{U} \boldsymbol{\Sigma} \boldsymbol{\Sigma}^T \mathbf{U}^T AAT=UΣΣTUT

计算步骤：

计算 A T A \mathbf{A}^T\mathbf{A} ATA 的特征值分解，得到 V \mathbf{V} V 和 σ i 2 \sigma_i^2 σi2
计算 A A T \mathbf{A}\mathbf{A}^T AAT 的特征值分解，得到 U \mathbf{U} U
Σ \boldsymbol{\Sigma} Σ 的对角元素为 σ i = λ i ( A T A ) \sigma_i = \sqrt{\lambda_i(\mathbf{A}^T\mathbf{A})} σi=λi(ATA)

紧凑SVD与截断SVD

紧凑SVD (Compact SVD) ：若 r = rank ( A ) < min ⁡ ( m , n ) r = \text{rank}(\mathbf{A}) < \min(m, n) r=rank(A)<min(m,n)，只保留非零奇异值：

A = U r Σ r V r T \mathbf{A} = \mathbf{U}_r \boldsymbol{\Sigma}_r \mathbf{V}_r^T A=UrΣrVrT

其中 U r ∈ R m × r \mathbf{U}_r \in \mathbb{R}^{m \times r} Ur∈Rm×r， Σ r ∈ R r × r \boldsymbol{\Sigma}_r \in \mathbb{R}^{r \times r} Σr∈Rr×r， V r ∈ R n × r \mathbf{V}_r \in \mathbb{R}^{n \times r} Vr∈Rn×r。

截断SVD (Truncated SVD) ：只保留前 k k k 个最大的奇异值（ k < r k < r k<r）：

A k = U k Σ k V k T = ∑ i = 1 k σ i u i v i T \mathbf{A}_k = \mathbf{U}_k \boldsymbol{\Sigma}_k \mathbf{V}k^T = \sum{i=1}^k \sigma_i \mathbf{u}_i \mathbf{v}_i^T Ak=UkΣkVkT=i=1∑kσiuiviT

低秩近似：Eckart-Young 定理

在所有秩不超过 k k k 的矩阵中，截断SVD A k \mathbf{A}_k Ak 是对 A \mathbf{A} A 的最佳近似（在Frobenius范数和谱范数意义下）：

A k = arg ⁡ min ⁡ rank ( B ) ≤ k ∥ A − B ∥ F \mathbf{A}k = \arg\min{\text{rank}(\mathbf{B}) \leq k} \|\mathbf{A} - \mathbf{B}\|_F Ak=argrank(B)≤kmin∥A−B∥F

近似误差为：

∥ A − A k ∥ F = σ k + 1 2 + ⋯ + σ r 2 \|\mathbf{A} - \mathbf{A}_k\|F = \sqrt{\sigma{k+1}^2 + \cdots + \sigma_r^2} ∥A−Ak∥F=σk+12+⋯+σr2

意义：

SVD提供了数据的最优压缩方式
保留最大的 k k k 个奇异值，丢失的信息最少
这是PCA、推荐系统、图像压缩的理论基础

四个基本子空间的SVD视角

设 A = U Σ V T \mathbf{A} = \mathbf{U} \boldsymbol{\Sigma} \mathbf{V}^T A=UΣVT，秩为 r r r：

列空间 C ( A ) \mathcal{C}(\mathbf{A}) C(A)：由 U \mathbf{U} U 的前 r r r 列张成（ u 1 , ... , u r \mathbf{u}_1, \ldots, \mathbf{u}_r u1,...,ur）
零空间 N ( A ) \mathcal{N}(\mathbf{A}) N(A)：由 V \mathbf{V} V 的后 n − r n-r n−r 列张成（ v r + 1 , ... , v n \mathbf{v}_{r+1}, \ldots, \mathbf{v}_n vr+1,...,vn）
行空间 C ( A T ) \mathcal{C}(\mathbf{A}^T) C(AT)：由 V \mathbf{V} V 的前 r r r 列张成（ v 1 , ... , v r \mathbf{v}_1, \ldots, \mathbf{v}_r v1,...,vr）
左零空间 N ( A T ) \mathcal{N}(\mathbf{A}^T) N(AT)：由 U \mathbf{U} U 的后 m − r m-r m−r 列张成（ u r + 1 , ... , u m \mathbf{u}_{r+1}, \ldots, \mathbf{u}_m ur+1,...,um）

SVD同时对角化了 A \mathbf{A} A 并明确了四个子空间的标准正交基。

伪逆的SVD计算

Moore-Penrose伪逆可通过SVD高效计算：

A † = V Σ † U T \mathbf{A}^\dagger = \mathbf{V} \boldsymbol{\Sigma}^\dagger \mathbf{U}^T A†=VΣ†UT

其中 Σ † \boldsymbol{\Sigma}^\dagger Σ† 是 Σ \boldsymbol{\Sigma} Σ 的伪逆：非零奇异值取倒数，然后转置。

Σ = [ σ 1 ⋱ σ r 0 ] ⇒ Σ † = [ 1 / σ 1 ⋱ 1 / σ r 0 ] T \boldsymbol{\Sigma} = \begin{bmatrix} \sigma_1 & & \\ & \ddots & \\ & & \sigma_r \\ & & & 0 \end{bmatrix} \quad \Rightarrow \quad \boldsymbol{\Sigma}^\dagger = \begin{bmatrix} 1/\sigma_1 & & \\ & \ddots & \\ & & 1/\sigma_r \\ & & & 0 \end{bmatrix}^T Σ= σ1⋱σr0 ⇒Σ†= 1/σ1⋱1/σr0 T

数值稳定性：小的奇异值对应近似零空间，在实践中可以设置阈值截断（避免除以接近零的数）。

在机器学习中的应用

主成分分析 (PCA)：
- 对数据矩阵 X \mathbf{X} X 进行SVD： X = U Σ V T \mathbf{X} = \mathbf{U} \boldsymbol{\Sigma} \mathbf{V}^T X=UΣVT
- 主成分方向为 V \mathbf{V} V 的列（右奇异向量）
- 前 k k k 个主成分解释的方差比例为 ∑ i = 1 k σ i 2 ∑ i = 1 r σ i 2 \frac{\sum_{i=1}^k \sigma_i^2}{\sum_{i=1}^r \sigma_i^2} ∑i=1rσi2∑i=1kσi2
推荐系统：
- 用户-物品评分矩阵的低秩近似（矩阵分解）
- 截断SVD提取潜在因子
图像压缩：
- 保留主要奇异值，减少存储空间
降噪：
- 小奇异值对应噪声，截断后可去噪
线性回归的数值解：
- 通过SVD稳定求解 A x = b \mathbf{A}\mathbf{x} = \mathbf{b} Ax=b，避免直接计算 ( A T A ) − 1 (\mathbf{A}^T\mathbf{A})^{-1} (ATA)−1

数值例子：2×3 矩阵的 SVD

考虑矩阵

A = [ 1 0 1 0 1 1 ] \mathbf{A} = \begin{bmatrix} 1 & 0 & 1 \\ 0 & 1 & 1 \end{bmatrix} A=[100111]

计算步骤：

计算 A T A \mathbf{A}^T\mathbf{A} ATA：

A T A = [ 1 0 0 1 1 1 ] [ 1 0 1 0 1 1 ] = [ 1 0 1 0 1 1 1 1 2 ] \mathbf{A}^T\mathbf{A} = \begin{bmatrix} 1 & 0 \\ 0 & 1 \\ 1 & 1 \end{bmatrix} \begin{bmatrix} 1 & 0 & 1 \\ 0 & 1 & 1 \end{bmatrix} = \begin{bmatrix} 1 & 0 & 1 \\ 0 & 1 & 1 \\ 1 & 1 & 2 \end{bmatrix} ATA= 101011 [100111]= 101011112

求 A T A \mathbf{A}^T\mathbf{A} ATA 的特征值和特征向量：

特征值： λ 1 = 3 \lambda_1 = 3 λ1=3， λ 2 = 1 \lambda_2 = 1 λ2=1， λ 3 = 0 \lambda_3 = 0 λ3=0

奇异值： σ 1 = 3 \sigma_1 = \sqrt{3} σ1=3 ， σ 2 = 1 \sigma_2 = 1 σ2=1， σ 3 = 0 \sigma_3 = 0 σ3=0

标准正交特征向量（ V \mathbf{V} V 的列）：
v 1 = 1 6 [ 1 1 2 ] , v 2 = 1 2 [ 1 − 1 0 ] , v 3 = 1 3 [ − 1 − 1 1 ] \mathbf{v}_1 = \frac{1}{\sqrt{6}}\begin{bmatrix} 1 \\ 1 \\ 2 \end{bmatrix}, \quad \mathbf{v}_2 = \frac{1}{\sqrt{2}}\begin{bmatrix} 1 \\ -1 \\ 0 \end{bmatrix}, \quad \mathbf{v}_3 = \frac{1}{\sqrt{3}}\begin{bmatrix} -1 \\ -1 \\ 1 \end{bmatrix} v1=6 1 112 ,v2=2 1 1−10 ,v3=3 1 −1−11
计算左奇异向量 U \mathbf{U} U：

对于非零奇异值：
u i = 1 σ i A v i \mathbf{u}_i = \frac{1}{\sigma_i}\mathbf{A}\mathbf{v}_i ui=σi1Avi

u 1 = 1 3 [ 1 0 1 0 1 1 ] 1 6 [ 1 1 2 ] = 1 2 [ 1 1 ] \mathbf{u}_1 = \frac{1}{\sqrt{3}}\begin{bmatrix} 1 & 0 & 1 \\ 0 & 1 & 1 \end{bmatrix} \frac{1}{\sqrt{6}}\begin{bmatrix} 1 \\ 1 \\ 2 \end{bmatrix} = \frac{1}{\sqrt{2}}\begin{bmatrix} 1 \\ 1 \end{bmatrix} u1=3 1[100111]6 1 112 =2 1[11]

u 2 = 1 1 [ 1 0 1 0 1 1 ] 1 2 [ 1 − 1 0 ] = 1 2 [ 1 − 1 ] \mathbf{u}_2 = \frac{1}{1}\begin{bmatrix} 1 & 0 & 1 \\ 0 & 1 & 1 \end{bmatrix} \frac{1}{\sqrt{2}}\begin{bmatrix} 1 \\ -1 \\ 0 \end{bmatrix} = \frac{1}{\sqrt{2}}\begin{bmatrix} 1 \\ -1 \end{bmatrix} u2=11[100111]2 1 1−10 =2 1[1−1]
SVD 分解：

A = U Σ V T = 1 2 [ 1 1 1 − 1 ] [ 3 0 0 0 1 0 ] [ 1 6 1 6 2 6 1 2 − 1 2 0 − 1 3 − 1 3 1 3 ] \mathbf{A} = \mathbf{U} \boldsymbol{\Sigma} \mathbf{V}^T = \frac{1}{\sqrt{2}}\begin{bmatrix} 1 & 1 \\ 1 & -1 \end{bmatrix} \begin{bmatrix} \sqrt{3} & 0 & 0 \\ 0 & 1 & 0 \end{bmatrix} \begin{bmatrix} \frac{1}{\sqrt{6}} & \frac{1}{\sqrt{6}} & \frac{2}{\sqrt{6}} \\ \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{2}} & 0 \\ -\frac{1}{\sqrt{3}} & -\frac{1}{\sqrt{3}} & \frac{1}{\sqrt{3}} \end{bmatrix} A=UΣVT=2 1[111−1][3 00100] 6 12 1−3 16 1−2 1−3 16 203 1

几何解释：

V T \mathbf{V}^T VT 将 R 3 \mathbb{R}^3 R3 旋转到新坐标系
Σ \boldsymbol{\Sigma} Σ 将第1个方向拉伸 3 \sqrt{3} 3 倍，第2个方向拉伸1倍，第3个方向压缩到0（零空间）
U \mathbf{U} U 将结果旋转到 R 2 \mathbb{R}^2 R2

低秩近似：

保留第1个奇异值的秩1近似：

A 1 = σ 1 u 1 v 1 T = 3 ⋅ 1 2 [ 1 1 ] ⋅ 1 6 [ 1 1 2 ] = 1 2 [ 1 1 2 1 1 2 ] \mathbf{A}_1 = \sigma_1 \mathbf{u}_1 \mathbf{v}_1^T = \sqrt{3} \cdot \frac{1}{\sqrt{2}}\begin{bmatrix} 1 \\ 1 \end{bmatrix} \cdot \frac{1}{\sqrt{6}}\begin{bmatrix} 1 & 1 & 2 \end{bmatrix} = \frac{1}{2}\begin{bmatrix} 1 & 1 & 2 \\ 1 & 1 & 2 \end{bmatrix} A1=σ1u1v1T=3 ⋅2 1[11]⋅6 1[112]=21[111122]

近似误差： ∥ A − A 1 ∥ F = σ 2 = 1 \|\mathbf{A} - \mathbf{A}_1\|_F = \sigma_2 = 1 ∥A−A1∥F=σ2=1

Cholesky 分解：正定矩阵

定义

对于对称正定 矩阵 A ∈ R n × n \mathbf{A} \in \mathbb{R}^{n \times n} A∈Rn×n（ A = A T \mathbf{A} = \mathbf{A}^T A=AT，所有特征值 > 0 > 0 >0），存在唯一的下三角矩阵 L \mathbf{L} L（对角元素为正）使得：

A = L L T \mathbf{A} = \mathbf{L} \mathbf{L}^T A=LLT

L \mathbf{L} L 称为 A \mathbf{A} A 的 Cholesky 因子。

上三角形式 ：也可以写成 A = R T R \mathbf{A} = \mathbf{R}^T \mathbf{R} A=RTR，其中 R \mathbf{R} R 是上三角矩阵。

计算方法

Cholesky分解可以通过递推公式高效计算，计算复杂度为 O ( n 3 / 3 ) O(n^3/3) O(n3/3)（约为LU分解的一半）。

对于 2 × 2 2 \times 2 2×2 矩阵：

A = [ a 11 a 12 a 12 a 22 ] = [ ℓ 11 0 ℓ 21 ℓ 22 ] [ ℓ 11 ℓ 21 0 ℓ 22 ] \mathbf{A} = \begin{bmatrix} a_{11} & a_{12} \\ a_{12} & a_{22} \end{bmatrix} = \begin{bmatrix} \ell_{11} & 0 \\ \ell_{21} & \ell_{22} \end{bmatrix} \begin{bmatrix} \ell_{11} & \ell_{21} \\ 0 & \ell_{22} \end{bmatrix} A=[a11a12a12a22]=[ℓ11ℓ210ℓ22][ℓ110ℓ21ℓ22]

解得：

ℓ 11 = a 11 , ℓ 21 = a 12 ℓ 11 , ℓ 22 = a 22 − ℓ 21 2 \ell_{11} = \sqrt{a_{11}}, \quad \ell_{21} = \frac{a_{12}}{\ell_{11}}, \quad \ell_{22} = \sqrt{a_{22} - \ell_{21}^2} ℓ11=a11 ,ℓ21=ℓ11a12,ℓ22=a22−ℓ212

与特征值分解的关系

对于正定矩阵，Cholesky分解和特征值分解的关系：

A = Q Λ Q T = Q Λ 1 / 2 Λ 1 / 2 Q T = ( Q Λ 1 / 2 ) ( Q Λ 1 / 2 ) T \mathbf{A} = \mathbf{Q} \boldsymbol{\Lambda} \mathbf{Q}^T = \mathbf{Q} \boldsymbol{\Lambda}^{1/2} \boldsymbol{\Lambda}^{1/2} \mathbf{Q}^T = (\mathbf{Q} \boldsymbol{\Lambda}^{1/2})(\mathbf{Q} \boldsymbol{\Lambda}^{1/2})^T A=QΛQT=QΛ1/2Λ1/2QT=(QΛ1/2)(QΛ1/2)T

但Cholesky分解得到的 L \mathbf{L} L 是下三角的，计算更高效，不需要求特征向量。

应用

线性方程组求解：

求解 A x = b \mathbf{A}\mathbf{x} = \mathbf{b} Ax=b（ A \mathbf{A} A 正定）：
- 先计算 A = L L T \mathbf{A} = \mathbf{L}\mathbf{L}^T A=LLT
- 前向替换求解 L y = b \mathbf{L}\mathbf{y} = \mathbf{b} Ly=b
- 后向替换求解 L T x = y \mathbf{L}^T\mathbf{x} = \mathbf{y} LTx=y
比直接求逆高效且数值稳定。
多元高斯分布采样：

从 N ( μ , Σ ) \mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\Sigma}) N(μ,Σ) 采样：
- 生成标准正态向量 z ∼ N ( 0 , I ) \mathbf{z} \sim \mathcal{N}(\mathbf{0}, \mathbf{I}) z∼N(0,I)
- 计算 Σ = L L T \boldsymbol{\Sigma} = \mathbf{L}\mathbf{L}^T Σ=LLT
- 返回 x = μ + L z \mathbf{x} = \boldsymbol{\mu} + \mathbf{L}\mathbf{z} x=μ+Lz
这是蒙特卡洛方法、变分推断中的核心技术。
协方差矩阵的数值稳定计算：

在卡尔曼滤波、高斯过程等算法中，保证协方差矩阵的正定性。
优化算法：

牛顿法中Hessian矩阵的Cholesky分解用于求解牛顿方向。

数值判定：Cholesky分解过程中若出现负数的平方根，说明矩阵不是正定的（可能是半正定或不定）。

QR 分解

QR分解将任意矩阵分解为正交矩阵和上三角矩阵的乘积，是数值线性代数中最重要的分解之一。

定义

对于矩阵 A ∈ R m × n \mathbf{A} \in \mathbb{R}^{m \times n} A∈Rm×n（ m ≥ n m \geq n m≥n，列满秩），存在分解：

A = Q R \mathbf{A} = \mathbf{Q} \mathbf{R} A=QR

其中：

Q ∈ R m × m \mathbf{Q} \in \mathbb{R}^{m \times m} Q∈Rm×m：正交矩阵（ Q T Q = I \mathbf{Q}^T\mathbf{Q} = \mathbf{I} QTQ=I）
R ∈ R m × n \mathbf{R} \in \mathbb{R}^{m \times n} R∈Rm×n：上三角矩阵（对角元素非零）

简化QR分解 ：若只保留前 n n n 列：

A = Q 1 R 1 \mathbf{A} = \mathbf{Q}_1 \mathbf{R}_1 A=Q1R1

其中 Q 1 ∈ R m × n \mathbf{Q}_1 \in \mathbb{R}^{m \times n} Q1∈Rm×n（ Q 1 T Q 1 = I n \mathbf{Q}_1^T\mathbf{Q}_1 = \mathbf{I}_n Q1TQ1=In）， R 1 ∈ R n × n \mathbf{R}_1 \in \mathbb{R}^{n \times n} R1∈Rn×n（上三角可逆）。

几何意义

QR分解的列向量关系：

A = [ a 1 ⋯ a n ] = [ q 1 ⋯ q m ] [ r 11 r 12 ⋯ r 1 n 0 r 22 ⋯ r 2 n ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ r n n 0 0 ⋯ 0 ] \mathbf{A} = [\mathbf{a}1 \cdots \mathbf{a}n] = [\mathbf{q}1 \cdots \mathbf{q}m] \begin{bmatrix} r{11} & r{12} & \cdots & r{1n} \\ 0 & r{22} & \cdots & r_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & r_{nn} \\ 0 & 0 & \cdots & 0 \end{bmatrix} A=[a1⋯an]=[q1⋯qm] r110⋮00r12r22⋮00⋯⋯⋱⋯⋯r1nr2n⋮rnn0

展开第 k k k 列：

a k = r 1 k q 1 + r 2 k q 2 + ⋯ + r k k q k \mathbf{a}k = r{1k}\mathbf{q}1 + r{2k}\mathbf{q}2 + \cdots + r{kk}\mathbf{q}_k ak=r1kq1+r2kq2+⋯+rkkqk

关键洞察：

Q \mathbf{Q} Q 的前 n n n 列 { q 1 , ... , q n } \{\mathbf{q}_1, \ldots, \mathbf{q}_n\} {q1,...,qn} 构成 C ( A ) \mathcal{C}(\mathbf{A}) C(A) 的标准正交基
R \mathbf{R} R 记录了原始列向量在正交基下的坐标
QR分解实际上是 Gram-Schmidt 正交化的矩阵表示

与 Gram-Schmidt 的关系

Gram-Schmidt 正交化可以表示为：

【机器学习教程】第02章：线性代数基础【下】

第02章：线性代数基础

目录

2.4 矩阵分解理论

特征值分解：方阵的对角化

特征值与特征向量

特征值分解 (Eigenvalue Decomposition)

谱定理 (Spectral Theorem)

特征值的性质

正定矩阵

数值例子：2×2 对称矩阵的特征值分解

奇异值分解 (SVD)：任意矩阵的分解

SVD 定理

几何意义：三步变换

与特征值分解的关系

奇异值的计算

紧凑SVD与截断SVD

低秩近似：Eckart-Young 定理

四个基本子空间的SVD视角

伪逆的SVD计算

在机器学习中的应用

数值例子：2×3 矩阵的 SVD

Cholesky 分解：正定矩阵

定义

计算方法

与特征值分解的关系

应用

QR 分解

定义

几何意义

与 Gram-Schmidt 的关系