线性代数 - 理解求解矩阵特征值的特征方程

flyfish

特征方程是针对一个给定矩阵 AAA 定义的，用于描述该矩阵的"特征"性质。它是求解矩阵特征值的特征方程 ，因为它的主要目的是通过解这个方程来找到矩阵的所有特征值 λ\lambdaλ

理解

步骤1: 为什么需要特征值

1.1 线性变换 ：在线性代数中，矩阵 AAA（假设是 n×nn \times nn×n 的实数或复数方阵）代表一个线性变换。例如，在二维空间中，矩阵可以把一个向量"变换"成另一个向量，如旋转、拉伸或反射。我们想分析这个变换的"本质行为"：不是对所有向量都复杂变换，而是对某些特殊向量只是简单"缩放"（乘以一个数）。

1.2 定义的引入 ：为了捕捉这个"缩放"行为，定义：对于矩阵 AAA，如果存在一个标量 λ\lambdaλ（叫特征值 ，eigenvalue，源自德语"eigen"意思是"固有的"）和一个非零向量 v\mathbf{v}v（叫特征向量 ，eigenvector），满足：
Av=λv A \mathbf{v} = \lambda \mathbf{v} Av=λv

这里，v\mathbf{v}v 不能是零向量，因为零向量满足任何 λ\lambdaλ，但没意义（它不代表方向）。
λ\lambdaλ 是标量，可以是实数或复数，取决于矩阵。

为什么非零？如果 v=0\mathbf{v} = \mathbf{0}v=0，等式总是成立，但不提供矩阵的任何信息。

1.3 直观例子 ：拿一个简单2×2矩阵 A=(2003)A = \begin{pmatrix} 2 & 0 \\ 0 & 3 \end{pmatrix}A=(2003)（对角矩阵）。

对于向量 v=(10)\mathbf{v} = \begin{pmatrix} 1 \\ 0 \end{pmatrix}v=(10)，Av=(20)=2(10)A \mathbf{v} = \begin{pmatrix} 2 \\ 0 \end{pmatrix} = 2 \begin{pmatrix} 1 \\ 0 \end{pmatrix}Av=(20)=2(10)，所以 λ=2\lambda = 2λ=2。

对于 v=(01)\mathbf{v} = \begin{pmatrix} 0 \\ 1 \end{pmatrix}v=(01)，λ=3\lambda = 3λ=3。

这显示矩阵在x轴缩放2倍，在y轴缩放3倍。特征值揭示了这些"固有缩放"。

1.4 问题提出 ：定义有了，但怎么系统找到所有 λ\lambdaλ？这就需要一个数学方程来求解 λ\lambdaλ，引出下一步。
逻辑连接到步骤2：这个定义是起点，但它是等式，不是可直接解的方程。我们需要变形它，使其变成可处理的线性方程组形式。

步骤2: 从定义变形到齐次线性方程组（引入矩阵形式）

2.1 变形的基本想法 ：从 Av=λvA \mathbf{v} = \lambda \mathbf{v}Av=λv 开始，想把所有项移到一边，变成"等于零"的形式，便于用线性代数工具分析。

为什么这样？因为线性代数擅长处理"Mx=bM \mathbf{x} = \mathbf{b}Mx=b"形式的方程，尤其是 b=0\mathbf{b} = \mathbf{0}b=0 时（齐次方程）。

子步骤：先减去右边：Av−λv=0A \mathbf{v} - \lambda \mathbf{v} = \mathbf{0}Av−λv=0。

这里 v\mathbf{v}v 是公共因子，但不能直接除（因为 v\mathbf{v}v 是向量）。

2.2 引入单位矩阵的必要性 ：注意到 λv=(λI)v\lambda \mathbf{v} = (\lambda I) \mathbf{v}λv=(λI)v，其中 III 是单位矩阵（n×nn \times nn×n，主对角线1，其余0）。

为什么需要 III？因为 λ\lambdaλ 是标量，不能直接减矩阵 AAA。乘以 III 把 λ\lambdaλ "扩展"成矩阵形式：λI=(λ00λ)\lambda I = \begin{pmatrix} \lambda & 0 \\ 0 & \lambda \end{pmatrix}λI=(λ00λ)（对于2×2）。

这样，等式变成：Av−(λI)v=0A \mathbf{v} - (\lambda I) \mathbf{v} = \mathbf{0}Av−(λI)v=0。

进一步，因子化：(A−λI)v=0(A - \lambda I) \mathbf{v} = \mathbf{0}(A−λI)v=0。

解释：A−λIA - \lambda IA−λI 是新矩阵，每个对角元素减 λ\lambdaλ，非对角不变。

2.3 例子说明变形 ：继续用 A=(2003)A = \begin{pmatrix} 2 & 0 \\ 0 & 3 \end{pmatrix}A=(2003)。
A−λI=(2−λ003−λ)A - \lambda I = \begin{pmatrix} 2 - \lambda & 0 \\ 0 & 3 - \lambda \end{pmatrix}A−λI=(2−λ003−λ)

方程：(2−λ003−λ)(v1v2)=(00)\begin{pmatrix} 2 - \lambda & 0 \\ 0 & 3 - \lambda \end{pmatrix} \begin{pmatrix} v_1 \\ v_2 \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \end{pmatrix}(2−λ003−λ)(v1v2)=(00)

这展开成：(2−λ)v1=0(2 - \lambda) v_1 = 0(2−λ)v1=0，(3−λ)v2=0(3 - \lambda) v_2 = 0(3−λ)v2=0。要非零解，如当 λ=2\lambda = 2λ=2，则 v2v_2v2 任意，v1=0v_1 = 0v1=0（如果要非零v）。

2.4 为什么是齐次方程组？ ：这个形式叫齐次线性方程组 ，因为右边是零，且所有方程是线性（无常数项）。

齐次方程总有零解，但我们关心非零解，这直接连接到矩阵的性质（如秩、核）。

如果不变形，就停留在抽象等式，无法用行列式等工具。

逻辑连接到步骤3：现在有方程组，但还没条件确保非零解。下一步用线性代数的定理来找出这个条件。

步骤3: 齐次方程组有非零解的条件（非平凡解的存在）

3.1 回顾齐次方程组 ：对于一般齐次方程 Mx=0M \mathbf{x} = \mathbf{0}Mx=0（MMM 是 n×nn \times nn×n 矩阵），它总有平凡解 x=0\mathbf{x} = \mathbf{0}x=0。

但非平凡解（非零 x\mathbf{x}x）的存在取决于 MMM 的性质。

基础定理（线性代数公理）：如果 MMM 可逆（满秩，行列式非零），则只有零解（因为 x=M−10=0\mathbf{x} = M^{-1} \mathbf{0} = \mathbf{0}x=M−10=0）。

如果 MMM 不可逆（奇异，秩 < n），则有无穷多非零解（自由变量存在）。

3.2 不可逆的充要条件 ：方阵 MMM 不可逆 ⇔ 其行列式 det⁡(M)=0\det(M) = 0det(M)=0 或 ∣M∣=0|M| = 0∣M∣=0。

为什么行列式？行列式是矩阵的"体积"度量：为零意味着列向量线性相关，无法"反转"变换。

子证明简述：行列式定义为交替多线性形式；如果列相关，行列式为零（基本性质）。反之，如果非零，存在逆矩阵（伴随矩阵公式）。

3.3 应用到我们的情况 ：在这里，M=A−λIM = A - \lambda IM=A−λI，方程是 (A−λI)v=0(A - \lambda I) \mathbf{v} = \mathbf{0}(A−λI)v=0。

要非零 v\mathbf{v}v，必须 A−λIA - \lambda IA−λI 不可逆，即：
∣A−λI∣=0 |A - \lambda I| = 0 ∣A−λI∣=0

这就是特征方程的雏形。

3.4 例子验证 ：用前例，∣A−λI∣=(2−λ)(3−λ)=0|A - \lambda I| = (2 - \lambda)(3 - \lambda) = 0∣A−λI∣=(2−λ)(3−λ)=0，解得 λ=2,3\lambda = 2, 3λ=2,3，匹配我们直观的特征值。

如果 λ=1\lambda = 1λ=1（不是特征值），行列式 = (2-1)(3-1) = 2 ≠ 0，矩阵可逆，只有零解。

3.5 为什么这个条件必要且充分？ ：必要：如果有非零 v\mathbf{v}v，则 A−λIA - \lambda IA−λI 有非零核，故不可逆。

充分：如果行列式零，则存在非零 v\mathbf{v}v 在核中。

这基于可逆矩阵定理（invertible matrix theorem）的多个等价条件。

逻辑连接到后续 ：这个步骤给出条件 ∣A−λI∣=0|A - \lambda I| = 0∣A−λI∣=0，下一步就是计算它，形成多项式方程。

步骤4: 形成特征方程（多项式方程的出现）

4.1 行列式的计算背景 ：从步骤3，知道要 ∣A−λI∣=0|A - \lambda I| = 0∣A−λI∣=0。现在，∣A−λI∣|A - \lambda I|∣A−λI∣ 不是一个常数，而是一个关于 λ\lambdaλ 的表达式。我们需要计算它，看它是什么形式。

为什么计算行列式？行列式是一个多线性函数，能把矩阵"浓缩"成一个标量多项式。它的定义（通过 Leibniz 公式或 Laplace 展开）确保了对 λ\lambdaλ 的依赖是多项式的。

对于 n×n 矩阵，行列式是置换乘积的交替和（alternating sum）。高斯消元也能计算，但这里我们关注其多项式性质。

子步骤：矩阵 A−λIA - \lambda IA−λI 的元素是 aij−δijλa_{ij} - \delta_{ij} \lambdaaij−δijλ，其中 δij=1\delta_{ij} = 1δij=1 如果 i=j，否则0。所以只有对角线有 λ\lambdaλ。

4.2 特征多项式的定义和形式 ：计算 p(λ)=∣A−λI∣=det⁡(A−λI)p(\lambda) = |A - \lambda I| = \det(A - \lambda I)p(λ)=∣A−λI∣=det(A−λI)，结果是一个 n 次多项式（monic polynomial，如果用 ∣λI−A∣|\lambda I - A|∣λI−A∣ 则领先系数为1）。

为什么是多项式？因为行列式是元素的多项式函数：展开时，λ\lambdaλ 只出现在对角，最高次是 (−λ)n(-\lambda)^n(−λ)n（n次），系数取决于 A 的元素。

正式形式：p(λ)=(−1)nλn+cn−1λn−1+⋯+c1λ+c0p(\lambda) = (-1)^n \lambda^n + c_{n-1} \lambda^{n-1} + \cdots + c_1 \lambda + c_0p(λ)=(−1)nλn+cn−1λn−1+⋯+c1λ+c0，其中系数 ckc_kck 来自 A 的子行列式（minor）。

例如，迹（trace）是 −cn−1-c_{n-1}−cn−1（对角和）；常数项是 (−1)ndet⁡(A)(-1)^n \det(A)(−1)ndet(A)。

这叫特征多项式（characteristic polynomial），因为它"刻画"了矩阵的特征值（根）。

4.3 详细例子计算 ：拿2×2矩阵 A=(abcd)A = \begin{pmatrix} a & b \\ c & d \end{pmatrix}A=(acbd)。
A−λI=(a−λbcd−λ)A - \lambda I = \begin{pmatrix} a - \lambda & b \\ c & d - \lambda \end{pmatrix}A−λI=(a−λcbd−λ)。

行列式：∣A−λI∣=(a−λ)(d−λ)−bc=λ2−(a+d)λ+(ad−bc)|A - \lambda I| = (a - \lambda)(d - \lambda) - b c = \lambda^2 - (a+d) \lambda + (a d - b c)∣A−λI∣=(a−λ)(d−λ)−bc=λ2−(a+d)λ+(ad−bc)（注意领先系数1，如果用 ∣λI−A∣|\lambda I - A|∣λI−A∣ 则相同但符号调整）。

这是一个二次多项式：解 λ2−tr(A)λ+det⁡(A)=0\lambda^2 - tr(A) \lambda + \det(A) = 0λ2−tr(A)λ+det(A)=0，根是特征值。

具体数例：如果 A=(2003)A = \begin{pmatrix} 2 & 0 \\ 0 & 3 \end{pmatrix}A=(2003)，则 p(λ)=(λ−2)(λ−3)=λ2−5λ+6p(\lambda) = (\lambda - 2)(\lambda - 3) = \lambda^2 - 5\lambda + 6p(λ)=(λ−2)(λ−3)=λ2−5λ+6，设为0得 λ=2,3\lambda = 2,3λ=2,3。

4.4 为什么设为零形成方程？ ：特征多项式 p(λ)p(\lambda)p(λ) 的根就是满足 p(λ)=0p(\lambda) = 0p(λ)=0 的 λ\lambdaλ，这些根正是特征值（由代数基本定理，n次多项式有n个根，计重数）。

子证明：如果 λ0\lambda_0λ0 是根，则 ∣A−λ0I∣=0|A - \lambda_0 I| = 0∣A−λ0I∣=0，由步骤3，有非零 v\mathbf{v}v，故 λ0\lambda_0λ0 是特征值。

反之，如果 λ0\lambda_0λ0 是特征值，则存在非零 v\mathbf{v}v，矩阵奇异，行列式零，故是根。

这就是特征方程 ：∣A−λI∣=0|A - \lambda I| = 0∣A−λI∣=0 或 p(λ)=0p(\lambda) = 0p(λ)=0。

把问题转为解多项式方程（用公式、数值方法如 Newton 迭代）。