神经网络之特征值与特征向量

无风听海2025-11-08 12:47

1. 定义

给定一个方阵 (A∈Rn×n)(A \in \mathbb{R}^{n \times n})(A∈Rn×n)，如果存在一个非零向量 (v≠0)(v \neq 0)(v=0) 和一个标量 (λ)(\lambda)(λ)，满足
Av=λv A v = \lambda v Av=λv

那么：

(v)(v)(v) 称为矩阵 (A)(A)(A) 的特征向量
(λ)(\lambda)(λ) 称为矩阵 (A)(A)(A) 的特征值

直观理解 ：

特征向量是经过矩阵变换 (A)(A)(A) 后，只被拉伸或缩放，而不改变方向 的向量。

特征值就是这个拉伸/缩放的倍数。

2. 几何意义

对称矩阵 (A)(A)(A) 可以看作一个线性变换：把空间中的向量映射到另一个向量。
特征向量对应的是变换中保持方向不变的方向。
特征值告诉我们沿这个方向的伸缩程度：
- (∣λ∣>1)(|\lambda| > 1)(∣λ∣>1)：向量被拉长
- (0<∣λ∣<1)(0 < |\lambda| < 1)(0<∣λ∣<1)：向量被缩短
- (λ<0)(\lambda < 0)(λ<0)：方向反向并缩放

例如：
A=[20 03],v1=[1 0], v2=[0 1] A = \begin{bmatrix} 2 & 0 \ 0 & 3 \end{bmatrix}, \quad v_1 = \begin{bmatrix} 1 \ 0 \end{bmatrix}, \ v_2 = \begin{bmatrix} 0 \ 1 \end{bmatrix} A=[20 03],v1=[1 0], v2=[0 1]

这里：
Av1=2v1,Av2=3v2 A v_1 = 2 v_1, \quad A v_2 = 3 v_2 Av1=2v1,Av2=3v2

所以 (v1,v2)(v_1, v_2)(v1,v2) 是特征向量，2 和 3 是特征值。几何上就是 x 方向被拉伸 2 倍，y 方向被拉伸 3 倍。

3. 计算方法

写出特征方程：
det⁡(A−λI)=0 \det(A - \lambda I) = 0 det(A−λI)=0

这里 (I)(I)(I) 是单位矩阵。
解这个多项式方程得到 (λ1,λ2,...,λn)(\lambda_1, \lambda_2, \dots, \lambda_n)(λ1,λ2,...,λn)（特征值）。
对每个特征值 (λ)(\lambda)(λ)，解线性方程组：
(A−λI)v=0 (A - \lambda I)v = 0 (A−λI)v=0

得到对应的特征向量 (v)(v)(v)。

4. 特点

(n×n)(n \times n)(n×n) 矩阵最多有 (n)(n)(n) 个特征值（可能有重根）。
对称矩阵：
- 特征值都是实数
- 不同特征值对应的特征向量是正交的