线性代数 - 理解求解矩阵特征值的特征方程

线性代数 - 理解求解矩阵特征值的特征方程

flyfish

特征方程是针对一个给定矩阵 AAA 定义的,用于描述该矩阵的"特征"性质。它是求解矩阵特征值的特征方程 ,因为它的主要目的是通过解这个方程来找到矩阵的所有特征值 λ\lambdaλ

理解

步骤1: 为什么需要特征值

1.1 线性变换 :在线性代数中,矩阵 AAA(假设是 n×nn \times nn×n 的实数或复数方阵)代表一个线性变换。例如,在二维空间中,矩阵可以把一个向量"变换"成另一个向量,如旋转、拉伸或反射。我们想分析这个变换的"本质行为":不是对所有向量都复杂变换,而是对某些特殊向量只是简单"缩放"(乘以一个数)。

1.2 定义的引入 :为了捕捉这个"缩放"行为,定义:对于矩阵 AAA,如果存在一个标量 λ\lambdaλ(叫特征值 ,eigenvalue,源自德语"eigen"意思是"固有的")和一个非零向量 v\mathbf{v}v(叫特征向量 ,eigenvector),满足:
Av=λv A \mathbf{v} = \lambda \mathbf{v} Av=λv

这里,v\mathbf{v}v 不能是零向量,因为零向量满足任何 λ\lambdaλ,但没意义(它不代表方向)。
λ\lambdaλ 是标量,可以是实数或复数,取决于矩阵。

为什么非零?如果 v=0\mathbf{v} = \mathbf{0}v=0,等式总是成立,但不提供矩阵的任何信息。

1.3 直观例子 :拿一个简单2×2矩阵 A=(2003)A = \begin{pmatrix} 2 & 0 \\ 0 & 3 \end{pmatrix}A=(2003)(对角矩阵)。

对于向量 v=(10)\mathbf{v} = \begin{pmatrix} 1 \\ 0 \end{pmatrix}v=(10),Av=(20)=2(10)A \mathbf{v} = \begin{pmatrix} 2 \\ 0 \end{pmatrix} = 2 \begin{pmatrix} 1 \\ 0 \end{pmatrix}Av=(20)=2(10),所以 λ=2\lambda = 2λ=2。

对于 v=(01)\mathbf{v} = \begin{pmatrix} 0 \\ 1 \end{pmatrix}v=(01),λ=3\lambda = 3λ=3。

这显示矩阵在x轴缩放2倍,在y轴缩放3倍。特征值揭示了这些"固有缩放"。

1.4 问题提出 :定义有了,但怎么系统找到所有 λ\lambdaλ?这就需要一个数学方程来求解 λ\lambdaλ,引出下一步。
逻辑连接到步骤2:这个定义是起点,但它是等式,不是可直接解的方程。我们需要变形它,使其变成可处理的线性方程组形式。

步骤2: 从定义变形到齐次线性方程组(引入矩阵形式)

2.1 变形的基本想法 :从 Av=λvA \mathbf{v} = \lambda \mathbf{v}Av=λv 开始,想把所有项移到一边,变成"等于零"的形式,便于用线性代数工具分析。

为什么这样?因为线性代数擅长处理"Mx=bM \mathbf{x} = \mathbf{b}Mx=b"形式的方程,尤其是 b=0\mathbf{b} = \mathbf{0}b=0 时(齐次方程)。

子步骤:先减去右边:Av−λv=0A \mathbf{v} - \lambda \mathbf{v} = \mathbf{0}Av−λv=0。

这里 v\mathbf{v}v 是公共因子,但不能直接除(因为 v\mathbf{v}v 是向量)。

2.2 引入单位矩阵的必要性 :注意到 λv=(λI)v\lambda \mathbf{v} = (\lambda I) \mathbf{v}λv=(λI)v,其中 III 是单位矩阵(n×nn \times nn×n,主对角线1,其余0)。

为什么需要 III?因为 λ\lambdaλ 是标量,不能直接减矩阵 AAA。乘以 III 把 λ\lambdaλ "扩展"成矩阵形式:λI=(λ00λ)\lambda I = \begin{pmatrix} \lambda & 0 \\ 0 & \lambda \end{pmatrix}λI=(λ00λ)(对于2×2)。

这样,等式变成:Av−(λI)v=0A \mathbf{v} - (\lambda I) \mathbf{v} = \mathbf{0}Av−(λI)v=0。

进一步,因子化:(A−λI)v=0(A - \lambda I) \mathbf{v} = \mathbf{0}(A−λI)v=0。

解释:A−λIA - \lambda IA−λI 是新矩阵,每个对角元素减 λ\lambdaλ,非对角不变。

2.3 例子说明变形 :继续用 A=(2003)A = \begin{pmatrix} 2 & 0 \\ 0 & 3 \end{pmatrix}A=(2003)。
A−λI=(2−λ003−λ)A - \lambda I = \begin{pmatrix} 2 - \lambda & 0 \\ 0 & 3 - \lambda \end{pmatrix}A−λI=(2−λ003−λ)

方程:(2−λ003−λ)(v1v2)=(00)\begin{pmatrix} 2 - \lambda & 0 \\ 0 & 3 - \lambda \end{pmatrix} \begin{pmatrix} v_1 \\ v_2 \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \end{pmatrix}(2−λ003−λ)(v1v2)=(00)

这展开成:(2−λ)v1=0(2 - \lambda) v_1 = 0(2−λ)v1=0,(3−λ)v2=0(3 - \lambda) v_2 = 0(3−λ)v2=0。要非零解,如当 λ=2\lambda = 2λ=2,则 v2v_2v2 任意,v1=0v_1 = 0v1=0(如果要非零v)。

2.4 为什么是齐次方程组? :这个形式叫齐次线性方程组 ,因为右边是零,且所有方程是线性(无常数项)。

齐次方程总有零解,但我们关心非零解,这直接连接到矩阵的性质(如秩、核)。

如果不变形,就停留在抽象等式,无法用行列式等工具。

逻辑连接到步骤3:现在有方程组,但还没条件确保非零解。下一步用线性代数的定理来找出这个条件。

步骤3: 齐次方程组有非零解的条件(非平凡解的存在)

3.1 回顾齐次方程组 :对于一般齐次方程 Mx=0M \mathbf{x} = \mathbf{0}Mx=0(MMM 是 n×nn \times nn×n 矩阵),它总有平凡解 x=0\mathbf{x} = \mathbf{0}x=0。

但非平凡解(非零 x\mathbf{x}x)的存在取决于 MMM 的性质。

基础定理(线性代数公理):如果 MMM 可逆(满秩,行列式非零),则只有零解(因为 x=M−10=0\mathbf{x} = M^{-1} \mathbf{0} = \mathbf{0}x=M−10=0)。

如果 MMM 不可逆(奇异,秩 < n),则有无穷多非零解(自由变量存在)。

3.2 不可逆的充要条件 :方阵 MMM 不可逆 ⇔ 其行列式 det⁡(M)=0\det(M) = 0det(M)=0 或 ∣M∣=0|M| = 0∣M∣=0。

为什么行列式?行列式是矩阵的"体积"度量:为零意味着列向量线性相关,无法"反转"变换。

子证明简述:行列式定义为交替多线性形式;如果列相关,行列式为零(基本性质)。反之,如果非零,存在逆矩阵(伴随矩阵公式)。

3.3 应用到我们的情况 :在这里,M=A−λIM = A - \lambda IM=A−λI,方程是 (A−λI)v=0(A - \lambda I) \mathbf{v} = \mathbf{0}(A−λI)v=0。

要非零 v\mathbf{v}v,必须 A−λIA - \lambda IA−λI 不可逆,即:
∣A−λI∣=0 |A - \lambda I| = 0 ∣A−λI∣=0

这就是特征方程的雏形。

3.4 例子验证 :用前例,∣A−λI∣=(2−λ)(3−λ)=0|A - \lambda I| = (2 - \lambda)(3 - \lambda) = 0∣A−λI∣=(2−λ)(3−λ)=0,解得 λ=2,3\lambda = 2, 3λ=2,3,匹配我们直观的特征值。

如果 λ=1\lambda = 1λ=1(不是特征值),行列式 = (2-1)(3-1) = 2 ≠ 0,矩阵可逆,只有零解。

3.5 为什么这个条件必要且充分? :必要:如果有非零 v\mathbf{v}v,则 A−λIA - \lambda IA−λI 有非零核,故不可逆。

充分:如果行列式零,则存在非零 v\mathbf{v}v 在核中。

这基于可逆矩阵定理(invertible matrix theorem)的多个等价条件。

逻辑连接到后续 :这个步骤给出条件 ∣A−λI∣=0|A - \lambda I| = 0∣A−λI∣=0,下一步就是计算它,形成多项式方程。

步骤4: 形成特征方程(多项式方程的出现)

4.1 行列式的计算背景 :从步骤3,知道要 ∣A−λI∣=0|A - \lambda I| = 0∣A−λI∣=0。现在,∣A−λI∣|A - \lambda I|∣A−λI∣ 不是一个常数,而是一个关于 λ\lambdaλ 的表达式。我们需要计算它,看它是什么形式。

为什么计算行列式?行列式是一个多线性函数,能把矩阵"浓缩"成一个标量多项式。它的定义(通过 Leibniz 公式或 Laplace 展开)确保了对 λ\lambdaλ 的依赖是多项式的。

对于 n×n 矩阵,行列式是置换乘积的交替和(alternating sum) 。高斯消元也能计算,但这里我们关注其多项式性质。

子步骤:矩阵 A−λIA - \lambda IA−λI 的元素是 aij−δijλa_{ij} - \delta_{ij} \lambdaaij−δijλ,其中 δij=1\delta_{ij} = 1δij=1 如果 i=j,否则0。所以只有对角线有 λ\lambdaλ。

4.2 特征多项式的定义和形式 :计算 p(λ)=∣A−λI∣=det⁡(A−λI)p(\lambda) = |A - \lambda I| = \det(A - \lambda I)p(λ)=∣A−λI∣=det(A−λI),结果是一个 n 次多项式(monic polynomial,如果用 ∣λI−A∣|\lambda I - A|∣λI−A∣ 则领先系数为1)。

为什么是多项式?因为行列式是元素的多项式函数:展开时,λ\lambdaλ 只出现在对角,最高次是 (−λ)n(-\lambda)^n(−λ)n(n次),系数取决于 A 的元素。

正式形式:p(λ)=(−1)nλn+cn−1λn−1+⋯+c1λ+c0p(\lambda) = (-1)^n \lambda^n + c_{n-1} \lambda^{n-1} + \cdots + c_1 \lambda + c_0p(λ)=(−1)nλn+cn−1λn−1+⋯+c1λ+c0,其中系数 ckc_kck 来自 A 的子行列式(minor)。

例如,迹(trace)是 −cn−1-c_{n-1}−cn−1(对角和);常数项是 (−1)ndet⁡(A)(-1)^n \det(A)(−1)ndet(A)。

这叫特征多项式(characteristic polynomial),因为它"刻画"了矩阵的特征值(根)。

4.3 详细例子计算 :拿2×2矩阵 A=(abcd)A = \begin{pmatrix} a & b \\ c & d \end{pmatrix}A=(acbd)。
A−λI=(a−λbcd−λ)A - \lambda I = \begin{pmatrix} a - \lambda & b \\ c & d - \lambda \end{pmatrix}A−λI=(a−λcbd−λ)。

行列式:∣A−λI∣=(a−λ)(d−λ)−bc=λ2−(a+d)λ+(ad−bc)|A - \lambda I| = (a - \lambda)(d - \lambda) - b c = \lambda^2 - (a+d) \lambda + (a d - b c)∣A−λI∣=(a−λ)(d−λ)−bc=λ2−(a+d)λ+(ad−bc)(注意领先系数1,如果用 ∣λI−A∣|\lambda I - A|∣λI−A∣ 则相同但符号调整)。

这是一个二次多项式:解 λ2−tr(A)λ+det⁡(A)=0\lambda^2 - tr(A) \lambda + \det(A) = 0λ2−tr(A)λ+det(A)=0,根是特征值。

具体数例:如果 A=(2003)A = \begin{pmatrix} 2 & 0 \\ 0 & 3 \end{pmatrix}A=(2003),则 p(λ)=(λ−2)(λ−3)=λ2−5λ+6p(\lambda) = (\lambda - 2)(\lambda - 3) = \lambda^2 - 5\lambda + 6p(λ)=(λ−2)(λ−3)=λ2−5λ+6,设为0得 λ=2,3\lambda = 2,3λ=2,3。

4.4 为什么设为零形成方程? :特征多项式 p(λ)p(\lambda)p(λ) 的根就是满足 p(λ)=0p(\lambda) = 0p(λ)=0 的 λ\lambdaλ,这些根正是特征值(由代数基本定理 ,n次多项式有n个根,计重数)。

子证明:如果 λ0\lambda_0λ0 是根,则 ∣A−λ0I∣=0|A - \lambda_0 I| = 0∣A−λ0I∣=0,由步骤3,有非零 v\mathbf{v}v,故 λ0\lambda_0λ0 是特征值。

反之,如果 λ0\lambda_0λ0 是特征值,则存在非零 v\mathbf{v}v,矩阵奇异,行列式零,故是根。

这就是特征方程 :∣A−λI∣=0|A - \lambda I| = 0∣A−λI∣=0 或 p(λ)=0p(\lambda) = 0p(λ)=0。

把问题转为解多项式方程(用公式、数值方法如 Newton 迭代)。

相关推荐
Tisfy19 小时前
LeetCode 2536.子矩阵元素加 1:二维差分数组
算法·leetcode·矩阵
醒过来摸鱼19 小时前
多重组合问题与矩阵配额问题
线性代数·矩阵·概率论
小欣加油20 小时前
leetcode 2536 子矩阵元素加1
数据结构·c++·算法·leetcode·矩阵
com_4sapi1 天前
2025 权威认证头部矩阵系统全景对比发布 双榜单交叉验证
大数据·c语言·人工智能·算法·矩阵·机器人
ChoSeitaku1 天前
线代强化NO6|矩阵|例题|小结
算法·机器学习·矩阵
跨境海王哥2 天前
Facebook矩阵引流:从防封机制拆解
线性代数·矩阵·facebook
西西弗Sisyphus2 天前
线性代数 - 二阶矩阵的行列式、向量叉积(Cross product)的模长与平行四边形面积的关系
线性代数·矩阵·行列式
西西弗Sisyphus2 天前
线性代数 - 3 阶方阵的行列式 可视化
线性代数·矩阵·行列式·满秩·降秩
西西弗Sisyphus2 天前
线性代数 - 矩阵乘法能换括号,不能换顺序;满足结合律,不满足交换律
线性代数·矩阵