线性代数 | 要义 / 本质 (下篇)

注:本文为 "线性代数 | 要义 / 本质" 相关合辑。

略排未全校,如有内容异常,请看原文。



【直观详解】线性代数的本质(下篇)

5 行列式的几何意义

The purpose of computation is insight, not numbers - Richard Hamming

计算的目的不在于数字本身,而在于洞察其背后的意义 ------理查德·汉明(没错,是发明汉明码的那个人)

5.1 行列式的定义

行列式是衡量线性变换对空间体积(面积 / 体积)缩放比例 的指标,记为 det ⁡ ( A ) \det (A) det(A) 或 ∣ A ∣ |A| ∣A∣。

  • 二维空间:对于矩阵 A = [ a b c d ] A = \begin {bmatrix} a & b \\ c & d \end {bmatrix} A=[acbd],其行列式为 det ⁡ ( A ) = a d − b c \det (A) = ad - bc det(A)=ad−bc,几何意义是 "标准基 { ı ^ , ȷ ^ } \{\hat {\imath}, \hat {\jmath}\} {^,^} 构成的单位正方形,经 A A A 变换后形成的平行四边形的面积";

  • 三维空间:对于矩阵 A = [ a b c d e f g h i ] A = \begin {bmatrix} a & b & c \\ d & e & f \\ g & h & i \end {bmatrix} A= adgbehcfi ,其行列式为 det ⁡ ( A ) = a ( e i − f h ) − b ( d i − f g ) + c ( d h − e g ) \det (A) = a (ei - fh) - b (di - fg) + c (dh - eg) det(A)=a(ei−fh)−b(di−fg)+c(dh−eg),几何意义是 "标准基 { ı ^ , ȷ ^ , k ^ } \{\hat {\imath}, \hat {\jmath}, \hat {k}\} {^,^,k^} 构成的单位立方体,经 A A A 变换后形成的平行六面体的体积"。

5.2 行列式的符号与降维

5.2.1 行列式的符号意义

行列式的正负表示线性变换是否改变空间的"定向",具体判断方式随空间维度不同而变化:

  1. 二维空间 :以单位向量 ı ^ \hat{\imath} ^ 为参照,若 ȷ ^ \hat{\jmath} ^ 经变换后从 ı ^ \hat{\imath} ^ 的左侧转移至右侧(效果类似"纸的翻面"),则行列式为负;反之, ȷ ^ \hat{\jmath} ^ 相对 ı ^ \hat{\imath} ^ 方位不变,行列式为正。
  2. 三维空间 :空间定向通过右手定则判断------右手四指沿 ı ^ → ȷ ^ → k ^ \hat{\imath} \to \hat{\jmath} \to \hat{k} ^→^→k^ 顺序弯曲,大拇指指向为空间正定向。变换后定向方向相反,行列式为负;定向方向不变,行列式为正。
5.2.2 行列式与空间降维的关系

若矩阵 A A A 的行列式 det ⁡ ( A ) = 0 \det(A) = 0 det(A)=0,则该矩阵对应的线性变换会导致空间维度降低:

  • 二维空间变换后降为直线;
  • 三维空间变换后降为平面或直线。

其本质是: det ⁡ ( A ) = 0 \det(A) = 0 det(A)=0 时,矩阵 A A A 的列向量线性相关,张成的空间维度小于矩阵阶数(如二阶矩阵列向量张成一维空间,三阶矩阵列向量张成二维或一维空间)。

5.2.3 线性变换的性质与行列式的作用
  1. 线性变换的基本性质

    线性变换保持图形的平行性,但改变图形的大小与方向;且不必然保持形状------仅旋转、反射等特殊线性变换保形,剪切变换等会改变图形形状。

  2. 行列式在二维线性变换中的作用

    行列式是描述矩阵缩放作用的标量值,可确定二维线性变换的两个关键结果:

    • 判断朝向变化 :行列式为 ,图形朝向不变;行列式为,图形朝向反转。
    • 确定面积缩放比例 :行列式的绝对值等于面积缩放比例。绝对值为 1 时面积不变,大于 1 时面积放大,小于 1 时面积缩小。

5.3 行列式的重要性质

由几何意义可直接推导行列式的核心性质:

  1. det ⁡ ( M 1 M 2 ) = det ⁡ ( M 1 ) det ⁡ ( M 2 ) \det (M_1M_2) = \det (M_1)\det (M_2) det(M1M2)=det(M1)det(M2):复合变换的体积缩放比例等于各变换缩放比例的乘积;

  2. det ⁡ ( A − 1 ) = 1 det ⁡ ( A ) \det (A^{-1}) = \frac {1}{\det (A)} det(A−1)=det(A)1:逆变换的缩放比例是原变换的倒数(若原变换放大 k k k 倍,逆变换缩小 1 k \frac {1}{k} k1 倍);

  3. det ⁡ ( k A ) = k n det ⁡ ( A ) \det (kA) = k^n\det (A) det(kA)=kndet(A): n n n 阶矩阵的数乘变换,体积缩放比例为 k n k^n kn(二维:面积缩放 k 2 k^2 k2,三维:体积缩放 k 3 k^3 k3)。

行列式直观理解

行列式是矩阵的一个数值特征,为建立行列式计算公式与几何直观的联系,二阶矩阵 [ a b c d ] \begin{bmatrix} a&b\\ c&d\end{bmatrix} [acbd] 的行列式,对应其列向量张成图形的有向面积:

  • 当 b = c = 0 b = c = 0 b=c=0 时,矩阵为 [ a 0 0 d ] \begin{bmatrix} a&0\\ 0&d\end{bmatrix} [a00d], a a a 是 i ^ \hat{i} i^ 在 x x x 轴的缩放比例, d d d 是 j ^ \hat{j} j^ 在 y y y 轴的缩放比例,行列式 a d ad ad 是单位正方形按 a a a、 d d d 拉伸后的面积(拉伸倍数)。

  • 当 b b b、 c c c 非 0 0 0 时,行列式 a d − b c ad - bc ad−bc 综合了 x x x、 y y y 轴拉伸与图形"倾斜压缩"的效果,为变换后图形的有向面积(总缩放比例)。

6 逆矩阵、列空间与零空间

To ask the right question is harder than to answer it - Georg Cantor

提出正确的问题比回答它更难 ------格奥尔格·康托尔

6.1 线性方程组的几何意义

线性方程组的一般形式为 A x ⃗ = v ⃗ A\vec {x} = \vec {v} Ax =v ,其中 A A A 为 n × n n \times n n×n 矩阵, x ⃗ \vec {x} x 为待求向量,

几何直观来翻译个公式即 A x ⃗ A\vec {x} Ax 经过 A A A 矩阵变换后,恰好落在 v ⃗ \vec {v} v 上

从线性变换的角度,该方程的几何意义是:找到向量 x ⃗ \vec {x} x ,使其经 A A A 变换后恰好等于 v ⃗ \vec {v} v

6.2 逆矩阵与方程组求解

6.2.1 逆矩阵的定义

若存在矩阵 A − 1 A^{-1} A−1,使得 A − 1 A = I A^{-1} A = I A−1A=I( I I I 为单位矩阵, I = [ 1 0 0 1 ] I = \begin {bmatrix} 1 & 0 \\ 0 & 1 \end {bmatrix} I=[1001](二维), I = [ 1 0 0 0 1 0 0 0 1 ] I = \begin {bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end {bmatrix} I= 100010001 (三维)),则称 A − 1 A^{-1} A−1 为 A A A 的逆矩阵

  • 几何意义: A − 1 A^{-1} A−1 对应的变换是 A A A 的 "逆操作"------ 若 A A A 将 x ⃗ \vec {x} x 变换为 v ⃗ \vec {v} v ,则 A − 1 A^{-1} A−1 将 v ⃗ \vec {v} v 变换回 x ⃗ \vec {x} x 。

6.2.2 线性方程组的解

在线性代数中,任意一个 m × n m \times n m×n 型线性方程组均可以表示为矩阵形式 A x = v A\mathbf{x} = \mathbf{v} Ax=v,其中各符号的定义如下:

  • A ∈ R m × n A \in \mathbb{R}^{m \times n} A∈Rm×n:称为系数矩阵,由方程组中未知量的系数按原顺序构成;
  • x ∈ R n \mathbf{x} \in \mathbb{R}^n x∈Rn:称为未知向量,包含方程组中所有待求解的未知量;
  • v ∈ R m \mathbf{v} \in \mathbb{R}^m v∈Rm:称为常数项向量,由方程组等号右侧的常数项构成。

该矩阵形式的核心意义在于:线性方程组 A x = v A\mathbf{x} = \mathbf{v} Ax=v 与从向量空间 R n \mathbb{R}^n Rn 到 R m \mathbb{R}^m Rm 的线性变换 T A : R n → R m T_A: \mathbb{R}^n \to \mathbb{R}^m TA:Rn→Rm(定义为 T A ( x ) = A x T_A(\mathbf{x}) = A\mathbf{x} TA(x)=Ax)一一对应。这种对应关系将"求解方程组"转化为"分析线性变换的性质",我们可从逆变换、列空间、零空间三个维度,系统讨论方程组解的存在性、唯一性及解集合的结构。

1. 逆变换与方程组的唯一解

当线性变换 T A T_A TA 满足"可逆"条件时,方程组 A x = v A\mathbf{x} = \mathbf{v} Ax=v 存在唯一解,具体推导与结论如下:

1.1 可逆的等价条件

线性变换 T A T_A TA 可逆,等价于其对应的系数矩阵 A A A 满足两个条件:

  1. A A A 是方阵 (即 m = n m = n m=n,方程组的"方程个数"等于"未知量个数");
  2. A A A 的行列式非零 (即 det ⁡ ( A ) ≠ 0 \det(A) \neq 0 det(A)=0,此时 A A A 称为可逆矩阵或非奇异矩阵)。

行列式非零的几何意义是:线性变换 T A T_A TA 不会导致向量空间"降维"(例如, R 3 \mathbb{R}^3 R3 中的变换不会将向量映射到 R 2 \mathbb{R}^2 R2 或更低维的空间),因此每个输出向量 v \mathbf{v} v 都能唯一对应一个输入向量 x \mathbf{x} x。

1.2 唯一解的代数形式

若 A A A 可逆,则其逆矩阵 A − 1 A^{-1} A−1 存在且唯一(满足 A − 1 A = A A − 1 = I A^{-1}A = AA^{-1} = I A−1A=AA−1=I,其中 I I I 为单位矩阵)。对 A x = v A\mathbf{x} = \mathbf{v} Ax=v 两边同时左乘 A − 1 A^{-1} A−1,可通过矩阵运算直接求解 x \mathbf{x} x:
A − 1 A x = A − 1 v    ⟹    I x = A − 1 v    ⟹    x = A − 1 v A^{-1}A\mathbf{x} = A^{-1}\mathbf{v} \implies I\mathbf{x} = A^{-1}\mathbf{v} \implies \mathbf{x} = A^{-1}\mathbf{v} A−1Ax=A−1v⟹Ix=A−1v⟹x=A−1v

从线性变换的角度看,该解等价于"将逆变换 T A − 1 T_A^{-1} TA−1 作用于 v \mathbf{v} v",即 x = T A − 1 ( v ) \mathbf{x} = T_A^{-1}(\mathbf{v}) x=TA−1(v),这进一步印证了解的唯一性------逆变换的输出是唯一的。

2. 列空间与方程组的解的存在性

当 T A T_A TA 不可逆(或 A A A 非方阵)时,方程组 A x = v A\mathbf{x} = \mathbf{v} Ax=v 未必有解,需通过系数矩阵 A A A 的列空间(Column Space)判定解的存在性。

2.1 列空间的定义

系数矩阵 A A A 的列空间(记为 Col ( A ) \text{Col}(A) Col(A))是 A A A 的所有列向量在 R m \mathbb{R}^m Rm 中通过"线性组合"张成的子空间。例如,若 A = [ a 1 a 2 ... a n ] A = [\mathbf{a}_1\ \mathbf{a}_2\ \dots\ \mathbf{a}_n] A=[a1 a2 ... an](其中 a i ∈ R m \mathbf{a}_i \in \mathbb{R}^m ai∈Rm 是 A A A 的第 i i i 列),则:
Col ( A ) = { c 1 a 1 + c 2 a 2 + ⋯ + c n a n ∣ c 1 , c 2 , ... , c n ∈ R } \text{Col}(A) = \left\{ c_1\mathbf{a}_1 + c_2\mathbf{a}_2 + \dots + c_n\mathbf{a}_n \mid c_1, c_2, \dots, c_n \in \mathbb{R} \right\} Col(A)={c1a1+c2a2+⋯+cnan∣c1,c2,...,cn∈R}

其几何意义是:线性变换 T A T_A TA 的所有可能输出向量 构成的集合,即 T A T_A TA 的"值域"。

2.2 解的存在性充要条件

根据列空间的定义,方程组 A x = v A\mathbf{x} = \mathbf{v} Ax=v 有解的本质是" v \mathbf{v} v 属于 T A T_A TA 的值域",因此可得到核心结论:

线性方程组 A x = v A\mathbf{x} = \mathbf{v} Ax=v 有解的充要条件 是:常数项向量 v \mathbf{v} v 属于系数矩阵 A A A 的列空间,即 v ∈ Col ( A ) \mathbf{v} \in \text{Col}(A) v∈Col(A)。

结合行列式的特殊情况(当 A A A 为方阵时):

  • 若 det ⁡ ( A ) ≠ 0 \det(A) \neq 0 det(A)=0( A A A 可逆),则 Col ( A ) = R m \text{Col}(A) = \mathbb{R}^m Col(A)=Rm(列空间充满整个目标空间),因此对任意 v ∈ R m \mathbf{v} \in \mathbb{R}^m v∈Rm,方程组均有解(与第1节结论一致);
  • 若 det ⁡ ( A ) = 0 \det(A) = 0 det(A)=0( A A A 不可逆),则 Col ( A ) \text{Col}(A) Col(A) 是 R m \mathbb{R}^m Rm 的真子空间(维度低于 m m m),此时仅当 v \mathbf{v} v 落在该真子空间内时,方程组有解,否则无解。
3. 零空间与方程组的解集合结构

当方程组 A x = v A\mathbf{x} = \mathbf{v} Ax=v 有解时,解的个数可能是"唯一"或"无穷多",需通过系数矩阵 A A A 的零空间(Null Space)刻画解集合的完整结构。

3.1 零空间的定义

系数矩阵 A A A 的零空间(记为 Nul ( A ) \text{Nul}(A) Nul(A))是齐次线性方程组 A x = 0 A\mathbf{x} = \mathbf{0} Ax=0(常数项向量全为0的方程组)的所有解向量在 R n \mathbb{R}^n Rn 中构成的子空间,即:
Nul ( A ) = { z ∈ R n ∣ A z = 0 } \text{Nul}(A) = \left\{ \mathbf{z} \in \mathbb{R}^n \mid A\mathbf{z} = \mathbf{0} \right\} Nul(A)={z∈Rn∣Az=0}

齐次方程组 A x = 0 A\mathbf{x} = \mathbf{0} Ax=0 始终有解(至少存在零解 x = 0 \mathbf{x} = \mathbf{0} x=0),因此零空间 Nul ( A ) \text{Nul}(A) Nul(A) 永远非空。

3.2 解集合的结构定理

设非齐次方程组 A x = v A\mathbf{x} = \mathbf{v} Ax=v 有解,且 x 0 \mathbf{x}_0 x0 是其任意一个特解 (即满足 A x 0 = v A\mathbf{x}_0 = \mathbf{v} Ax0=v 的某个固定解),则方程组的所有解 可表示为"特解 + 零空间中任意向量"的形式,即:
x = x 0 + z , 其中 z ∈ Nul ( A ) \mathbf{x} = \mathbf{x}_0 + \mathbf{z}, \quad \text{其中 } \mathbf{z} \in \text{Nul}(A) x=x0+z,其中 z∈Nul(A)

该定理的逻辑验证如下:

  1. 解的有效性 :若 z ∈ Nul ( A ) \mathbf{z} \in \text{Nul}(A) z∈Nul(A),则 A z = 0 A\mathbf{z} = \mathbf{0} Az=0,因此 A ( x 0 + z ) = A x 0 + A z = v + 0 = v A(\mathbf{x}_0 + \mathbf{z}) = A\mathbf{x}_0 + A\mathbf{z} = \mathbf{v} + \mathbf{0} = \mathbf{v} A(x0+z)=Ax0+Az=v+0=v,即 x 0 + z \mathbf{x}_0 + \mathbf{z} x0+z 是方程组的解;

  2. 解的完整性 :设 x \mathbf{x} x 是方程组的任意一个解,则 A ( x − x 0 ) = A x − A x 0 = v − v = 0 A(\mathbf{x} - \mathbf{x}_0) = A\mathbf{x} - A\mathbf{x}_0 = \mathbf{v} - \mathbf{v} = \mathbf{0} A(x−x0)=Ax−Ax0=v−v=0,即 x − z ∈ Nul ( A ) \mathbf{x} - \mathbf{z} \in \text{Nul}(A) x−z∈Nul(A),因此 x \mathbf{x} x 可表示为 x 0 + ( x − x 0 ) \mathbf{x}_0 + (\mathbf{x} - \mathbf{x}_0) x0+(x−x0),符合上述形式。

3.3 特殊情况的解集合

根据上述定理,可进一步明确两类典型方程组的解集合:

  • 非齐次方程组 A x = v A\mathbf{x} = \mathbf{v} Ax=v
    • 若 v ∉ Col ( A ) \mathbf{v} \notin \text{Col}(A) v∈/Col(A):解集合为空集(无解);
    • 若 v ∈ Col ( A ) \mathbf{v} \in \text{Col}(A) v∈Col(A):解集合为 { x 0 + z ∣ z ∈ Nul ( A ) } \left\{ \mathbf{x}_0 + \mathbf{z} \mid \mathbf{z} \in \text{Nul}(A) \right\} {x0+z∣z∈Nul(A)}(无穷多解,除非 Nul ( A ) = { 0 } \text{Nul}(A) = \left\{ \mathbf{0} \right\} Nul(A)={0},即零空间仅含零向量,此时解唯一)。
  • 齐次方程组 A x = 0 A\mathbf{x} = \mathbf{0} Ax=0
    • 特解 x 0 = 0 \mathbf{x}_0 = \mathbf{0} x0=0(零解),因此解集合就是零空间 Nul ( A ) \text{Nul}(A) Nul(A);
    • 若 Nul ( A ) = { 0 } \text{Nul}(A) = \left\{ \mathbf{0} \right\} Nul(A)={0},则仅有零解;若 Nul ( A ) \text{Nul}(A) Nul(A) 维度大于0,则有无穷多非零解。

6.3 列空间(Column Space)

矩阵 A A A 的列空间 是其所有列向量张成的空间,记为 C ( A ) C (A) C(A)。

  • 几何意义:列空间是线性变换 A A A 的 "所有可能输出向量" 的集合(即 A x ⃗ A\vec {x} Ax 的所有可能结果);
  • 维度与秩:列空间的维度称为矩阵的 (记为 rank ( A ) \text {rank}(A) rank(A))。对于 n × n n \times n n×n 矩阵,若 rank ( A ) = n \text {rank}(A) = n rank(A)=n(满秩),则列空间是整个 n n n 维空间;若 rank ( A ) < n \text {rank}(A) < n rank(A)<n(降秩),则列空间是 n n n 维空间的一个子空间(如二维中的直线、三维中的平面)。

重要性质 :零向量 0 ⃗ \vec {0} 0 一定在列空间中(令 x ⃗ = 0 ⃗ \vec {x} = \vec {0} x =0 ,则 A 0 ⃗ = 0 ⃗ A\vec {0} = \vec {0} A0 =0 )。

6.4 零空间(Null Space)

所有经过该矩阵变换后落在原点的向量的集合,称为该矩阵(再次强调,矩阵是变换的数字表达)的零空间或核。

图 1 二维空间压缩到一条直线(一维),其中一条直线(一维)上的点被压缩到原点。
图 2 三维空间压缩到一个平面(二维),其中一条直线(一维)上的点被压缩到原点。
图 3 三维空间压缩到一条直线(一维),其中一个平面(二维)上的点被压缩到原点。
注意: 线性压缩是一种线性变换,而矩阵是线性变换在给定基下的代数表示(数字表达),二者一一对应但并非等同。

矩阵 A A A 的零空间 是满足 A x ⃗ = 0 ⃗ A\vec {x} = \vec {0} Ax =0 的所有向量 x ⃗ \vec {x} x 的集合,记为 N ( A ) N (A) N(A)。

  • 几何意义:零空间是线性变换 A A A 中 "被压缩到原点的向量" 的集合;
  • 维度关系(秩 - 零定理):对于 n × n n \times n n×n 矩阵, rank ( A ) + dim ⁡ ( N ( A ) ) = n \text {rank}(A) + \dim (N (A)) = n rank(A)+dim(N(A))=n(列空间维度与零空间维度之和等于矩阵的阶数)。

示例

  • 若 A A A 是 2 × 2 2 \times 2 2×2 矩阵且 det ⁡ ( A ) = 0 \det (A) = 0 det(A)=0(二维→一维),则零空间是一条直线(所有被压缩到原点的向量构成的直线);
  • 若 A A A 是 3 × 3 3 \times 3 3×3 矩阵且 rank ( A ) = 2 \text {rank}(A) = 2 rank(A)=2(三维→二维),则零空间是一条直线( dim ⁡ ( N ( A ) ) = 3 − 2 = 1 \dim (N (A)) = 3 - 2 = 1 dim(N(A))=3−2=1)。
6.4.1 秩-零化度定理

零化度(Nullity)是线性代数中矩阵零空间的维数,是衡量矩阵"将向量映射为零向量"能力的重要指标。

  • 零空间(Null Space,又称核空间 Kernel):指矩阵 A ∈ R m × n A \in \mathbb{R}^{m \times n} A∈Rm×n 的所有解向量 x ∈ R n \mathbf{x} \in \mathbb{R}^n x∈Rn 的集合,即 N ( A ) = { x ∈ R n ∣ A x = 0 } \text{N}(A) = \{\mathbf{x} \in \mathbb{R}^n \mid A\mathbf{x} = \mathbf{0}\} N(A)={x∈Rn∣Ax=0}。
  • 零化度的本质:零空间作为一个向量空间,其维数 即为零化度(记为 nullity ( A ) \text{nullity}(A) nullity(A)),等价于零空间中"极大线性无关组的向量个数"(即零空间的基向量数)。
  • 零化度的计算:通过对矩阵 A A A 做初等行变换化为行最简形,解线性方程组 A x = 0 A\mathbf{x} = \mathbf{0} Ax=0 得到自由变量的个数,该个数即为零化度(自由变量数 = 零空间维数)。

对任意 m × n m \times n m×n 矩阵 A A A,其列空间的维数 (即秩 rank ( A ) \text{rank}(A) rank(A))与零空间的维数 (零化度)之和,等于矩阵的列数 n n n,即:

dim ⁡ ( Col ( A ) ) + dim ⁡ ( Nul ( A ) ) = n \dim(\text{Col}(A)) + \dim(\text{Nul}(A)) = n dim(Col(A))+dim(Nul(A))=n

注意:是"维数之和",而非"空间本身相加"------列空间( R m \mathbb{R}^m Rm 子空间)与零空间( R n \mathbb{R}^n Rn 子空间)维度可能不同,无法直接叠加。

6.4.2 满秩与列空间、零空间

"满秩"是矩阵的属性( rank ( A ) = min ⁡ ( m , n ) \text{rank}(A) = \min(m, n) rank(A)=min(m,n)),结合上述定理分析:

  • 若 A A A 为 n × n n \times n n×n 方阵(满秩即 rank ( A ) = n \text{rank}(A) = n rank(A)=n):
    由定理得 dim ⁡ ( Nul ( A ) ) = 0 \dim(\text{Nul}(A)) = 0 dim(Nul(A))=0(零空间仅含零向量),且列空间 Col ( A ) = R n \text{Col}(A) = \mathbb{R}^n Col(A)=Rn(满维子空间)。
  • 若 A A A 为长方阵(如 m < n m < n m<n 时满秩即 rank ( A ) = m \text{rank}(A) = m rank(A)=m):
    列空间 Col ( A ) = R m \text{Col}(A) = \mathbb{R}^m Col(A)=Rm(满维),零空间维数 n − m > 0 n - m > 0 n−m>0(含非零解)。

7 非方阵的几何意义

On this quiz, I asked you to find the determinant of a 2*3 matrix. Some of you, to my great amusement, actually tried to do this - no name listed

在这个小测试里,我让你们求一个 2*3 矩阵的行列式。让我感到非常可笑的是,你们当中竟然有人尝试去做 ------佚名

7.1 非方阵的维度映射

非方阵(如 m × n m \times n m×n 矩阵, m ≠ n m \neq n m=n)对应的线性变换是不同维度空间之间的映射

  • m × n m \times n m×n 矩阵:将 n n n 维输入空间映射到 m m m 维输出空间;
  • 示例: 3 × 2 3 \times 2 3×2 矩阵将二维空间映射到三维空间(输入为 2 2 2 维向量,输出为 3 3 3 维向量),其列向量是二维标准基 { ı ^ , ȷ ^ } \{\hat {\imath}, \hat {\jmath}\} {^,^} 在三维空间中的变换结果。

7.2 非方阵乘法的条件

两个非方阵 M 1 M_1 M1( p × q p \times q p×q)与 M 2 M_2 M2( q × r q \times r q×r)可相乘的充要条件是:前一个矩阵的列数等于后一个矩阵的行数 (即 M 1 M_1 M1 的输入维度等于 M 2 M_2 M2 的输出维度),乘积矩阵 M = M 1 M 2 M = M_1M_2 M=M1M2 的维度为 p × r p \times r p×r。

  • 几何意义: M 2 M_2 M2 将 r r r 维空间映射到 q q q 维空间, M 1 M_1 M1 再将 q q q 维空间映射到 p p p 维空间,复合变换的输入维度为 r r r,输出维度为 p p p,与乘积矩阵维度一致。

7.3 非方阵的行列式

非方阵不存在行列式,因为行列式的核心是 "体积缩放比例",而不同维度空间之间的映射(如二维→三维)无法定义 "体积比"(二维空间的 "面积" 与三维空间的 "体积" 单位不同,无直接比例关系)。

8 点积与对偶性

卡尔文:你知道吗,我觉数学不是一门科学,而是一种宗教。

霍布斯:一种宗教?

卡尔文:是啊。这些公式就像奇迹一般。你取出两个数,把它们相加时,它们神奇地成为了一个全新的数!没人能说清这到底是怎么发生的。你要么完全相信,要么完全不信。

8.1 点积的定义与几何意义

8.1.1 代数定义

对于 n n n 维向量 v ⃗ = [ v 1 v 2 ⋯ v n ] \vec {v} = \begin {bmatrix} v_1 \\ v_2 \\ \cdots \\ v_n \end {bmatrix} v = v1v2⋯vn 与 w ⃗ = [ w 1 w 2 ⋯ w n ] \vec {w} = \begin {bmatrix} w_1 \\ w_2 \\ \cdots \\ w_n \end {bmatrix} w = w1w2⋯wn ,其点积为:
v ⃗ ⋅ w ⃗ = v 1 w 1 + v 2 w 2 + ⋯ + v n w n \vec {v} \cdot \vec {w} = v_1w_1 + v_2w_2 + \cdots + v_nw_n v ⋅w =v1w1+v2w2+⋯+vnwn

8.1.2 几何意义

点积的几何意义是 "一个向量在另一个向量上的投影长度与被投影向量长度的乘积",即:
v ⃗ ⋅ w ⃗ = ∥ v ⃗ ∥ ⋅ ∥ w ⃗ ∥ ⋅ cos ⁡ θ \vec {v} \cdot \vec {w} = \|\vec {v}\| \cdot \|\vec {w}\| \cdot \cos\theta v ⋅w =∥v ∥⋅∥w ∥⋅cosθ

其中 θ \theta θ 是 v ⃗ \vec {v} v 与 w ⃗ \vec {w} w 的夹角, ∥ v ⃗ ∥ = v 1 2 + v 2 2 + ⋯ + v n 2 \|\vec {v}\| = \sqrt {v_1^2 + v_2^2 + \cdots + v_n^2} ∥v ∥=v12+v22+⋯+vn2 是 v ⃗ \vec {v} v 的长度(模)。

  • 符号含义: cos ⁡ θ > 0 \cos\theta > 0 cosθ>0( θ < 9 0 ∘ \theta < 90^\circ θ<90∘)时,点积为正; cos ⁡ θ < 0 \cos\theta < 0 cosθ<0( θ > 9 0 ∘ \theta > 90^\circ θ>90∘)时,点积为负; cos ⁡ θ = 0 \cos\theta = 0 cosθ=0( θ = 9 0 ∘ \theta = 90^\circ θ=90∘)时,点积为 0 0 0(两向量垂直)。

8.2 点积的交换律

点积满足交换律: v ⃗ ⋅ w ⃗ = w ⃗ ⋅ v ⃗ \vec {v} \cdot \vec {w} = \vec {w} \cdot \vec {v} v ⋅w =w ⋅v ,几何解释如下:

  • 若 ∥ v ⃗ ∥ = ∥ w ⃗ ∥ \|\vec {v}\| = \|\vec {w}\| ∥v ∥=∥w ∥,则 v ⃗ \vec {v} v 在 w ⃗ \vec {w} w 上的投影长度等于 w ⃗ \vec {w} w 在 v ⃗ \vec {v} v 上的投影长度,乘积相等;
  • 若 ∥ v ⃗ ∥ ≠ ∥ w ⃗ ∥ \|\vec {v}\| \neq \|\vec {w}\| ∥v ∥=∥w ∥,设 v ⃗ \vec {v} v 的长度为 k ∥ w ⃗ ∥ k\|\vec {w}\| k∥w ∥,则 v ⃗ \vec {v} v 在 w ⃗ \vec {w} w 上的投影长度为 k k k 倍 w ⃗ \vec {w} w 在 v ⃗ \vec {v} v 上的投影长度,乘积仍相等(如 v ⃗ = 2 u ⃗ \vec {v} = 2\vec {u} v =2u ,则 2 u ⃗ ⋅ w ⃗ = 2 ( u ⃗ ⋅ w ⃗ ) = w ⃗ ⋅ 2 u ⃗ 2\vec {u} \cdot \vec {w} = 2 (\vec {u} \cdot \vec {w}) = \vec {w} \cdot 2\vec {u} 2u ⋅w =2(u ⋅w )=w ⋅2u )。

8.3 对偶性:点积与线性变换的对应

8.3.1 多维到一维的线性变换

1 × n 1 \times n 1×n 矩阵(行向量)对应的线性变换是将 n n n 维空间映射到一维空间(数轴)。

例如, 1 × 2 1 \times 2 1×2 矩阵 [ a b ] \begin {bmatrix} a & b \end {bmatrix} [ab] 对二维向量 [ x y ] \begin {bmatrix} x \\ y \end {bmatrix} [xy] 的变换结果为 a x + b y ax + by ax+by,这与点积 [ a b ] ⋅ [ x y ] \begin {bmatrix} a \\ b \end {bmatrix} \cdot \begin {bmatrix} x \\ y \end {bmatrix} [ab]⋅[xy] 完全一致。

8.3.2 对偶性的定义

对偶性是指 "多维到一维的线性变换" 与 "该空间中的向量" 之间的一一对应关系:

  • 对于任意 n n n 维到一维的线性变换 L ( x ⃗ ) L (\vec {x}) L(x ),存在唯一的 n n n 维向量 u ⃗ \vec {u} u ,使得 L ( x ⃗ ) = u ⃗ ⋅ x ⃗ L (\vec {x}) = \vec {u} \cdot \vec {x} L(x )=u ⋅x ;
  • 反之,任意 n n n 维向量 u ⃗ \vec {u} u 都可定义一个 n n n 维到一维的线性变换 L ( x ⃗ ) = u ⃗ ⋅ x ⃗ L (\vec {x}) = \vec {u} \cdot \vec {x} L(x )=u ⋅x 。

几何解释 :设 u ⃗ \vec {u} u 是一维空间(数轴)的单位向量, L ( x ⃗ ) L (\vec {x}) L(x ) 是 x ⃗ \vec {x} x 在 u ⃗ \vec {u} u 所在数轴上的投影长度,则 L ( x ⃗ ) = u ⃗ ⋅ x ⃗ L (\vec {x}) = \vec {u} \cdot \vec {x} L(x )=u ⋅x (投影长度等于 x ⃗ \vec {x} x 与单位向量 u ⃗ \vec {u} u 的点积)。

9 叉积

每一个维度都很特别。------ 杰弗里・拉加里亚斯(Jeffrey Lagarias)

从他(格罗滕迪克)和他的作为中,我还学到了一点:不以高难度的证明为傲,因为难度高意味着我们还不理解。理想的情况是能够绘出一幅美景,而其中的证明显而易见。

9.1 二维情况下的叉积类比

在二维空间中,向量 v ⃗ \vec{v} v 与 w ⃗ \vec{w} w 张成的平行四边形的面积 ,可类比为二维 "叉积"(注:严格意义上的叉积仅定义于三维空间,二维情况实为面积的代数值),记为 v ⃗ × w ⃗ \vec{v} \times \vec{w} v ×w 。

该结果的正负号由基向量 ı ^ \hat{\imath} ^ 和 ȷ ^ \hat{\jmath} ^ 的相对位置关系确定:若 v ⃗ \vec{v} v 与 w ⃗ \vec{w} w 张成的平行四边形中, ȷ ^ \hat{\jmath} ^ 相对于 ı ^ \hat{\imath} ^ 的位置与原始坐标系一致,则结果为正;反之则为负。

结合几何直观,可得出以下结论:

  1. 向量 v ⃗ \vec{v} v 与 w ⃗ \vec{w} w 的夹角越接近 9 0 ∘ 90^\circ 90∘(垂直),二者张成的平行四边形面积越大;

  2. 叉积满足分配律,即 v ⃗ × ( w ⃗ 1 + w ⃗ 2 ) = v ⃗ × w ⃗ 1 + v ⃗ × w ⃗ 2 \vec{v} \times (\vec{w}_1 + \vec{w}_2) = \vec{v} \times \vec{w}_1 + \vec{v} \times \vec{w}_2 v ×(w 1+w 2)=v ×w 1+v ×w 2。

9.2 真正的叉积定义

严格意义上的叉积 定义于三维空间:给定两个三维向量 v ⃗ \vec{v} v 与 w ⃗ \vec{w} w ,二者的叉积运算将产生一个新的三维向量 p ⃗ \vec{p} p ,且满足以下两个条件:

  1. 向量 p ⃗ \vec{p} p 的长度等于 v ⃗ \vec{v} v 与 w ⃗ \vec{w} w 张成的平行四边形的面积;

  2. 向量 p ⃗ \vec{p} p 的方向与 v ⃗ \vec{v} v 和 w ⃗ \vec{w} w 张成的平面垂直,其具体方向由右手定则 确定:将右手食指指向 v ⃗ \vec{v} v 的方向,中指指向 w ⃗ \vec{w} w 的方向,此时大拇指所指方向即为 p ⃗ \vec{p} p 的方向。

9.3 叉积计算公式

三维向量叉积的计算公式可通过行列式形式表示,如下所示:

v ⃗ × w ⃗ = [ v 1 v 2 v 3 ] × [ w 1 w 2 w 3 ] = det ⁡ ( ı ^ v 1 w 1 ȷ ^ v 2 w 2 k ^ v 3 w 3 ) \vec{v} \times \vec{w} = \begin{bmatrix} v_1 \\ v_2 \\ v_3 \end{bmatrix} \times \begin{bmatrix} w_1 \\ w_2 \\ w_3 \end{bmatrix} = \det\begin{pmatrix} \hat{\imath} & v_1 & w_1 \\ \hat{\jmath} & v_2 & w_2 \\ \hat{k} & v_3 & w_3 \end{pmatrix} v ×w = v1v2v3 × w1w2w3 =det ^^k^v1v2v3w1w2w3

展开上述行列式,可得:

v ⃗ × w ⃗ = ı ^ ( v 2 w 3 − v 3 w 2 ) − ȷ ^ ( v 1 w 3 − v 3 w 1 ) + k ^ ( v 1 w 2 − v 2 w 1 ) \vec{v} \times \vec{w} = \hat{\imath}(v_2 w_3 - v_3 w_2) - \hat{\jmath}(v_1 w_3 - v_3 w_1) + \hat{k}(v_1 w_2 - v_2 w_1) v ×w =^(v2w3−v3w2)−^(v1w3−v3w1)+k^(v1w2−v2w1)

其中, ı ^ \hat{\imath} ^、 ȷ ^ \hat{\jmath} ^、 k ^ \hat{k} k^ 为三维空间的标准单位基向量,这三个基向量前面的系数(即 v 2 w 3 − v 3 w 2 v_2 w_3 - v_3 w_2 v2w3−v3w2、 − ( v 1 w 3 − v 3 w 1 ) -(v_1 w_3 - v_3 w_1) −(v1w3−v3w1)、 v 1 w 2 − v 2 w 1 v_1 w_2 - v_2 w_1 v1w2−v2w1)分别对应叉积结果向量 p ⃗ \vec{p} p 的 x x x、 y y y、 z z z 坐标值。

初次接触该公式时,多数学习者难以理解其形式由来,甚至部分教学过程仅要求记忆公式而不解释逻辑。但基于 "直观理解" 的核心原则,需进一步探明公式的推导过程。

9.4 叉积计算的几何直观

在推导前,需再次强化对偶性的核心概念:每当遇到一个从 "多维空间到数轴" 的线性变换时,该空间中必然存在唯一一个向量与之对应 ------"将线性变换作用于某个向量" 的结果,与 "该向量和对应向量的点积运算" 结果完全等价。

叉积的运算过程正是对偶性的典型实例:根据向量 v ⃗ \vec{v} v 和 w ⃗ \vec{w} w 定义一个从三维空间到数轴的特定线性变换,找到该变换的对偶向量,这个对偶向量即为 v ⃗ \vec{v} v 与 w ⃗ \vec{w} w 的叉积。具体推导步骤如下:

9.4.1 定义线性变换 f ( u ⃗ ) f(\vec{u}) f(u )

已知三维空间中, 3 × 3 3 \times 3 3×3 矩阵的行列式值等于该矩阵三个列向量(或行向量)张成的平行六面体的体积。若将矩阵的第一列替换为自变量向量 u ⃗ = ( x , y , z ) \vec{u} = (x, y, z) u =(x,y,z),后两列固定为向量 v ⃗ \vec{v} v 和 w ⃗ \vec{w} w ,则可定义函数:

f ( u ⃗ ) = det ⁡ ( u ⃗ v ⃗ w ⃗ ) f(\vec{u}) = \det\begin{pmatrix} \vec{u} & \vec{v} & \vec{w} \end{pmatrix} f(u )=det(u v w )

该函数的几何意义为:平行六面体的体积随自变量向量 u ⃗ \vec{u} u 的变化而变化( "平行六面体随白色向量 ( x , y , z ) (x,y,z) (x,y,z) 的随机游走而不断改变" )。此时核心问题转化为:根据 v ⃗ \vec{v} v 和 w ⃗ \vec{w} w ,找到一个变换(矩阵或函数),使得上述等式成立。

9.4.2 利用对偶性转化问题

由于 f ( u ⃗ ) f(\vec{u}) f(u ) 满足线性变换的 "可加性" 与 "成比例性"(即线性性质),根据对偶性原理,存在一个三维向量 p ⃗ \vec{p} p ,使得对任意向量 u ⃗ \vec{u} u ,均有:

f ( u ⃗ ) = p ⃗ ⋅ u ⃗ f(\vec{u}) = \vec{p} \cdot \vec{u} f(u )=p ⋅u

"将 1 × 3 1 \times 3 1×3 的变换矩阵转置,写成点积形式" 的逻辑 ------ 通过对偶性,将 "线性变换作用于 u ⃗ \vec{u} u " 转化为 " u ⃗ \vec{u} u 与 p ⃗ \vec{p} p 的点积",此时问题进一步转化为:寻找向量 p ⃗ \vec{p} p ,使得上述等式成立。

9.4.3 确定 p ⃗ \vec{p} p 的方向与长度
(1) p ⃗ \vec{p} p 的方向:与 v ⃗ \vec{v} v 、 w ⃗ \vec{w} w 张成的平面垂直

根据点积的几何意义, p ⃗ ⋅ u ⃗ \vec{p} \cdot \vec{u} p ⋅u 表示 "将 u ⃗ \vec{u} u 投影到 p ⃗ \vec{p} p 上,投影长度与 p ⃗ \vec{p} p 的长度相乘";而平行六面体的体积公式为 "底面积 × 高",其中 "高" 是 u ⃗ \vec{u} u 在 "与底面积垂直方向" 上的投影长度(底面积为 v ⃗ \vec{v} v 与 w ⃗ \vec{w} w 张成的平行四边形面积)。

为使 "点积结果" 与 "体积" 相等, p ⃗ \vec{p} p 的方向必须与 v ⃗ \vec{v} v 、 w ⃗ \vec{w} w 张成的平面垂直 ------ 只有这样, u ⃗ \vec{u} u 在 p ⃗ \vec{p} p 上的投影长度才等于平行六面体的高,满足 "体积 = 底面积 × 高" 的逻辑。

(2) p ⃗ \vec{p} p 的长度:等于 v ⃗ \vec{v} v 、 w ⃗ \vec{w} w 张成的平行四边形面积

结合点积公式与体积公式:

  • 点积: p ⃗ ⋅ u ⃗ = ∣ p ⃗ ∣ × ∣ u ⃗ 投影 ∣ \vec{p} \cdot \vec{u} = |\vec{p}| \times |\vec{u}{\text{投影}}| p ⋅u =∣p ∣×∣u 投影∣( ∣ u ⃗ 投影 ∣ |\vec{u}{\text{投影}}| ∣u 投影∣ 为 u ⃗ \vec{u} u 在 p ⃗ \vec{p} p 上的投影长度);

  • 体积: V = S × ∣ u ⃗ 投影 ∣ V = S \times |\vec{u}_{\text{投影}}| V=S×∣u 投影∣( S S S 为 v ⃗ \vec{v} v 与 w ⃗ \vec{w} w 张成的平行四边形面积)。

由于 p ⃗ ⋅ u ⃗ = V \vec{p} \cdot \vec{u} = V p ⋅u =V,代入后可得 ∣ p ⃗ ∣ = S |\vec{p}| = S ∣p ∣=S,即 p ⃗ \vec{p} p 的长度等于 v ⃗ \vec{v} v 与 w ⃗ \vec{w} w 张成的平行四边形面积。

9.4.4 对偶性的价值

通过上述推导,再次验证了对偶性的意义 ------ 它建立了 "线性变换" 与 "向量" 之间自然且出乎意料的对应关系。基于几何直观理解叉积公式的由来,而非单纯记忆,是加深概念记忆、实现深度理解的有效途径。

9.5 总结

通过以下步骤可回顾叉积的核心逻辑,检验对概念的掌握程度:

  1. 基于 v ⃗ \vec{v} v 和 w ⃗ \vec{w} w ,定义一个从三维空间到数轴的线性变换 f ( u ⃗ ) = det ⁡ ( u ⃗ v ⃗ w ⃗ ) f(\vec{u}) = \det\begin{pmatrix} \vec{u} & \vec{v} & \vec{w} \end{pmatrix} f(u )=det(u v w );

  2. 利用对偶性,将线性变换 f ( u ⃗ ) f(\vec{u}) f(u ) 转化为 " u ⃗ \vec{u} u 与某向量 p ⃗ \vec{p} p 的点积",即 f ( u ⃗ ) = p ⃗ ⋅ u ⃗ f(\vec{u}) = \vec{p} \cdot \vec{u} f(u )=p ⋅u ;

  3. 为满足 "点积结果 = 平行六面体体积",推导得出: p ⃗ \vec{p} p 的方向与 v ⃗ \vec{v} v 、 w ⃗ \vec{w} w 张成的平面垂直,长度等于该平面内平行四边形的面积;

  4. 将 ı ^ \hat{\imath} ^、 ȷ ^ \hat{\jmath} ^、 k ^ \hat{k} k^ 代入行列式第一列并展开,即可得到叉积的计算公式,而该行列式的结果向量正是对偶向量 p ⃗ \vec{p} p ,即 v ⃗ × w ⃗ = p ⃗ \vec{v} \times \vec{w} = \vec{p} v ×w =p 。

在几何直观上,这个对偶向量 一定与 v ⃗ \vec{v} v 和 w ⃗ \vec{w} w 垂直 ,并且其长度与这两个向量张成的平行四边形的面积相同

10 基变换与坐标转换

Mathematics is the art of givinh the same name to different things -Henri Poincare

数学是一门赋予不同事物相同名称的艺术 ------昂利·庞加莱

10.1 基的定义与坐标表示

设 { b 1 ⃗ , b 2 ⃗ , ⋯   , b n ⃗ } \{\vec {b_1}, \vec {b_2}, \cdots, \vec {b_n}\} {b1 ,b2 ,⋯,bn } 是 n n n 维空间的一组基,任意向量 x ⃗ \vec {x} x 可唯一表示为:
x ⃗ = c 1 b 1 ⃗ + c 2 b 2 ⃗ + ⋯ + c n b n ⃗ \vec {x} = c_1\vec {b_1} + c_2\vec {b_2} + \cdots + c_n\vec {b_n} x =c1b1 +c2b2 +⋯+cnbn

其中 [ c 1 c 2 ⋯ c n ] \begin {bmatrix} c_1 \\ c_2 \\ \cdots \\ c_n \end {bmatrix} c1c2⋯cn 称为 x ⃗ \vec {x} x 在基 { b 1 ⃗ , ⋯   , b n ⃗ } \{\vec {b_1}, \cdots, \vec {b_n}\} {b1 ,⋯,bn } 下的坐标

10.1.2 标准基与非标准基的转换

设标准基为 { ı ^ , ȷ ^ } \{\hat {\imath}, \hat {\jmath}\} {^,^}(二维),非标准基为 { b 1 ⃗ , b 2 ⃗ } \{\vec {b_1}, \vec {b_2}\} {b1 ,b2 },其中 b 1 ⃗ = [ 2 1 ] \vec {b_1} = \begin {bmatrix} 2 \\ 1 \end {bmatrix} b1 =[21], b 2 ⃗ = [ − 1 1 ] \vec {b_2} = \begin {bmatrix} -1 \\ 1 \end {bmatrix} b2 =[−11](用标准基表示)。

  • 基变换矩阵:将非标准基向量作为列构成矩阵 T = [ 2 − 1 1 1 ] T = \begin {bmatrix} 2 & -1 \\ 1 & 1 \end {bmatrix} T=[21−11],称为 "从非标准基到标准基的转换矩阵";
  • 坐标转换:若 x ⃗ \vec {x} x 在非标准基下的坐标为 [ c 1 c 2 ] \begin {bmatrix} c_1 \\ c_2 \end {bmatrix} [c1c2],则其在标准基下的坐标为 [ x 1 x 2 ] = T [ c 1 c 2 ] \begin {bmatrix} x_1 \\ x_2 \end {bmatrix} = T\begin {bmatrix} c_1 \\ c_2 \end {bmatrix} [x1x2]=T[c1c2];
  • 逆转换:若已知 x ⃗ \vec {x} x 在标准基下的坐标,其在非标准基下的坐标为 [ c 1 c 2 ] = T − 1 [ x 1 x 2 ] \begin {bmatrix} c_1 \\ c_2 \end {bmatrix} = T^{-1}\begin {bmatrix} x_1 \\ x_2 \end {bmatrix} [c1c2]=T−1[x1x2],其中 T − 1 T^{-1} T−1 是 T T T 的逆矩阵。

10.2 线性变换在不同基下的矩阵

设线性变换 L L L 在标准基下的矩阵为 M M M,在非标准基 { b 1 ⃗ , b 2 ⃗ } \{\vec {b_1}, \vec {b_2}\} {b1 ,b2 } 下的矩阵为 M ′ M' M′,则 M ′ M' M′ 与 M M M 的关系为:
M ′ = T − 1 M T M' = T^{-1} MT M′=T−1MT

其中 T T T 是从非标准基到标准基的转换矩阵。

10.2.2 几何意义
  • T T T:将非标准基下的坐标转换为标准基下的坐标;
  • M M M:在标准基下应用线性变换;
  • T − 1 T^{-1} T−1:将标准基下的变换结果转换回非标准基下的坐标;
  • 整体效果: M ′ M' M′ 描述了同一线性变换在非标准基下的数字表达。

示例 :设 L L L 是 "左旋转 9 0 ∘ 90^\circ 90∘" 的变换,标准基下的矩阵 M = [ 0 − 1 1 0 ] M = \begin {bmatrix} 0 & -1 \\ 1 & 0 \end {bmatrix} M=[01−10],非标准基转换矩阵 T = [ 2 − 1 1 1 ] T = \begin {bmatrix} 2 & -1 \\ 1 & 1 \end {bmatrix} T=[21−11],则非标准基下的变换矩阵为:
M ′ = T − 1 M T = 1 3 [ 1 1 − 1 2 ] × [ 0 − 1 1 0 ] × [ 2 − 1 1 1 ] = [ 1 3 − 1 3 2 3 − 1 ] M' = T^{-1} MT = \frac {1}{3}\begin {bmatrix} 1 & 1 \\ -1 & 2 \end {bmatrix} \times \begin {bmatrix} 0 & -1 \\ 1 & 0 \end {bmatrix} \times \begin {bmatrix} 2 & -1 \\ 1 & 1 \end {bmatrix} = \begin {bmatrix} \frac {1}{3} & -\frac {1}{3} \\ \frac {2}{3} & -1 \end {bmatrix} M′=T−1MT=31[1−112]×[01−10]×[21−11]=[3132−31−1]

11 特征向量与特征值

本节将系统梳理特征向量与特征值的定义、意义、计算方法及特殊情况,同时探讨特征基的应用,建立其与线性变换、行列式等前置知识的关联,深化对线性代数变换本质的理解。

11.1 特征向量与特征值的定义

设对 ı ^ \hat{\imath} ^ 和 ȷ ^ \hat{\jmath} ^ 张成的空间进行线性变换,基变换为 ı ^ ′ = [ 3 0 ] \hat{\imath}' = \begin{bmatrix} 3 \\ 0 \end{bmatrix} ^′=[30]、 ȷ ^ ′ = [ 1 2 ] \hat{\jmath}' = \begin{bmatrix} 1 \\ 2 \end{bmatrix} ^′=[12]。变换中,大部分向量会脱离自身张成空间(原点到向量终点的直线),但部分向量仍留在该空间内,仅被拉伸或压缩。

如图所示, x x x 轴上所有向量被伸长为原来的 3 倍,向量 ( − 1 , 1 ) (-1, 1) (−1,1) 被伸长为原来的 2 倍,基于此可给出如下定义:

  • 变换中留在自身张成空间内的向量,称为特征向量 (如 x x x 轴上的向量、 ( − 1 , 1 ) (-1, 1) (−1,1));
  • 特征向量被拉伸或压缩的比例因子,称为特征值(如 3、2);
  • 特征值的正负号,用于表示变换是否使向量发生方向翻转。

11.2 特征向量与特征值的意义

特征向量与特征值是理解线性变换作用的关键工具。以三维空间为例,若能找到旋转轴对应的向量,其特征值必为 1,该向量在旋转变换中保持方向不变,通过这类特征信息可更清晰地描述线性变换的本质。

11.3 特征向量与特征值的计算

根据定义,特征向量与特征值满足数学关系 A v ⃗ = λ v ⃗ A \vec{v} = \lambda \vec{v} Av =λv ,其中 A A A 为变换矩阵, v ⃗ \vec{v} v 为特征向量, λ \lambda λ 为特征值。为便于计算,将等式变形为矩阵乘法形式:

  1. 由于 λ v ⃗ \lambda \vec{v} λv 等价于对角矩阵 λ I \lambda I λI 与 v ⃗ \vec{v} v 的乘积( I I I 为单位矩阵),因此 A v ⃗ = ( λ I ) v ⃗ A \vec{v} = (\lambda I) \vec{v} Av =(λI)v ;
  2. 移项可得 ( A − λ I ) v ⃗ = 0 (A - \lambda I) \vec{v} = 0 (A−λI)v =0,该式表示矩阵 A − λ I A - \lambda I A−λI 对 v ⃗ \vec{v} v 的变换会将其压缩到更低维度;
  3. 空间压缩对应矩阵行列式为 0,即 det ⁡ ( A − λ I ) = 0 \det(A - \lambda I) = 0 det(A−λI)=0,求解该方程可得到特征值 λ \lambda λ,再代入 ( A − λ I ) v ⃗ = 0 (A - \lambda I) \vec{v} = 0 (A−λI)v =0 可求得特征向量 v ⃗ \vec{v} v 。

如图所示,随 λ \lambda λ 变化可可视化这一计算过程。例如矩阵 A = [ 2 2 1 3 ] A = \begin{bmatrix} 2 & 2 \\ 1 & 3 \end{bmatrix} A=[2123],其特征值之一为 1。

11.4 特征向量的特殊情况

11.4.1 旋转变换

对平面旋转变换,求解特征值会得到复数解(如 ± i \pm i ±i),不存在实特征向量。特征值为复数的情况,通常对应变换中的旋转操作。

11.4.2 剪切变换

剪切变换中, x x x 轴保持不变,仅存在一个特征值 λ = 1 \lambda = 1 λ=1(满足 ( λ − 1 ) 2 = 0 (\lambda - 1)^2 = 0 (λ−1)2=0),且特征向量数量不足,无法张成整个空间。

11.4.3 伸缩变换

伸缩变换中,仅有一个特征值,但空间内所有向量均为特征向量,变换仅对所有向量进行统一比例的拉伸或压缩。

11.5 特征基

  • 定义 :由特征向量构成的基向量集合,称为特征基。对角矩阵的基向量均为特征向量,因其列向量(对应基向量)仅在自身维度上有非零值,符合特征向量"方向不变"的属性。
  • 优势 :对角矩阵的多次乘法计算简便,例如 A n A^n An( A A A 为对角矩阵)仅需对对角线元素取 n n n 次幂。
  • 应用 :若矩阵可对角化,可通过基变换将其转化为对角矩阵计算:以特征向量为基构建变换矩阵 P P P,则 P − 1 A P P^{-1}AP P−1AP 为对角矩阵(对角元素为特征值),计算后再通过 P P P 转换回原空间。

需注意,并非所有矩阵都能对角化,如剪切变换因特征向量数量不足,无法构建特征基。

12 抽象向量空间

线性代数的关键概念(如行列式、特征向量)不受坐标系限制,是空间的固有属性。

本节将线性代数的应用范围从"箭头向量"扩展到更广泛的抽象对象,构建抽象向量空间的理论框架。

12.1 函数与向量的等价性

函数可视为一种特殊的"向量",因其满足向量的关键运算性质:

  • 可加性: ( f + g ) ( x ) = f ( x ) + g ( x ) (f + g)(x) = f(x) + g(x) (f+g)(x)=f(x)+g(x),即两个函数在任意点的函数值之和,对应向量加法;
  • 数乘性: ( k f ) ( x ) = k f ( x ) (kf)(x) = kf(x) (kf)(x)=kf(x)( k k k 为标量),即标量与函数值的乘积,对应向量数乘。

基于此,线性代数中矩阵、线性变换等概念可迁移至函数领域。例如,微积分中的导数是典型的函数线性变换,通常称为"线性算子",其本质与向量空间中的线性变换一致。

以多项式函数为例,可通过矩阵描述求导变换。选取幂函数 { 1 , x , x 2 , x 3 , ...   } \{1, x, x^2, x^3, \dots\} {1,x,x2,x3,...} 作为基函数(对应向量空间的基向量),则求导操作可表示为矩阵形式,进一步验证"矩阵是变换的数字表达"这一关键观点。

12.2 向量空间的定义与公理

  • 定义 :满足向量加法和数乘运算规则的集合,称为向量空间,集合中的元素称为"向量"(如箭头、数组、函数等)。
  • 公理:向量加法与数乘需满足以下 8 条公理,以保证运算的合理性:
  1. 向量加法结合律: r ⃗ + ( v ⃗ + w ⃗ ) = ( r ⃗ + v ⃗ ) + w ⃗ \vec{r} + (\vec{v} + \vec{w}) = (\vec{r} + \vec{v}) + \vec{w} r +(v +w )=(r +v )+w ;
  2. 向量加法交换律: v ⃗ + w ⃗ = w ⃗ + v ⃗ \vec{v} + \vec{w} = \vec{w} + \vec{v} v +w =w +v ;
  3. 加法单位元存在:存在零向量 0 ⃗ \vec{0} 0 ,使得 0 ⃗ + v ⃗ = v ⃗ \vec{0} + \vec{v} = \vec{v} 0 +v =v 对所有 v ⃗ \vec{v} v 成立;
  4. 加法逆元存在:对任意向量 v ⃗ \vec{v} v ,存在 − v ⃗ \vec{-v} −v ,使得 v ⃗ + ( − v ⃗ ) = 0 ⃗ \vec{v} + (-\vec{v}) = \vec{0} v +(−v )=0 ;
  5. 标量乘法与域乘法相容: a ( b v ⃗ ) = ( a b ) v ⃗ a(b\vec{v}) = (ab)\vec{v} a(bv )=(ab)v ( a , b a, b a,b 为标量);
  6. 标量乘法单位元存在: 1 ⋅ v ⃗ = v ⃗ 1 \cdot \vec{v} = \vec{v} 1⋅v =v ;
  7. 标量乘法对向量加法分配律: a ( v ⃗ + w ⃗ ) = a v ⃗ + a w ⃗ a(\vec{v} + \vec{w}) = a\vec{v} + a\vec{w} a(v +w )=av +aw ;
  8. 标量乘法对域加法分配律: ( a + b ) v ⃗ = a v ⃗ + b v ⃗ (a + b)\vec{v} = a\vec{v} + b\vec{v} (a+b)v =av +bv 。

这些公理是连接理论与应用的桥梁,确保线性代数结论可推广到各类抽象向量空间。

12.3 函数空间示例:多项式空间

以"所有多项式构成的集合"为例,验证其满足抽象向量空间的定义:

  • 向量加法 :设多项式 f ( x ) = a n x n + ⋯ + a 1 x + a 0 f(x) = a_nx^n + \dots + a_1x + a_0 f(x)=anxn+⋯+a1x+a0、 g ( x ) = b n x n + ⋯ + b 1 x + b 0 g(x) = b_nx^n + \dots + b_1x + b_0 g(x)=bnxn+⋯+b1x+b0,则 f ( x ) + g ( x ) = ( a n + b n ) x n + ⋯ + ( a 1 + b 1 ) x + ( a 0 + b 0 ) f(x) + g(x) = (a_n + b_n)x^n + \dots + (a_1 + b_1)x + (a_0 + b_0) f(x)+g(x)=(an+bn)xn+⋯+(a1+b1)x+(a0+b0),符合可加性;
  • 向量数乘 :对标量 c c c, c ⋅ f ( x ) = c a n x n + ⋯ + c a 1 x + c a 0 c \cdot f(x) = ca_nx^n + \dots + ca_1x + ca_0 c⋅f(x)=canxn+⋯+ca1x+ca0,符合数乘性;
  • 基与维度 : n n n 次多项式空间的基为 { 1 , x , x 2 , ... , x n } \{1, x, x^2, \dots, x^n\} {1,x,x2,...,xn},维度为 n + 1 n + 1 n+1(基向量的个数)。

12.4 线性算子:抽象空间的线性变换

在抽象向量空间中,"线性变换"称为线性算子 ,需满足与线性变换相同的条件:对任意向量 u ⃗ , v ⃗ \vec{u}, \vec{v} u ,v 和标量 k k k,有 T ( u ⃗ + v ⃗ ) = T ( u ⃗ ) + T ( v ⃗ ) T(\vec{u} + \vec{v}) = T(\vec{u}) + T(\vec{v}) T(u +v )=T(u )+T(v ) 且 T ( k u ⃗ ) = k T ( u ⃗ ) T(k\vec{u}) = kT(\vec{u}) T(ku )=kT(u )。

12.4.1 导数算子示例

设导数算子 D : D ( f ( x ) ) = f ′ ( x ) D: D(f(x)) = f'(x) D:D(f(x))=f′(x)(作用于多项式空间),验证其线性性:

  1. 可加性: D ( f ( x ) + g ( x ) ) = f ′ ( x ) + g ′ ( x ) = D ( f ( x ) ) + D ( g ( x ) ) D(f(x) + g(x)) = f'(x) + g'(x) = D(f(x)) + D(g(x)) D(f(x)+g(x))=f′(x)+g′(x)=D(f(x))+D(g(x));
  2. 数乘性: D ( k f ( x ) ) = k f ′ ( x ) = k D ( f ( x ) ) D(kf(x)) = kf'(x) = kD(f(x)) D(kf(x))=kf′(x)=kD(f(x))。

以 { 1 , x , x 2 } \{1, x, x^2\} {1,x,x2} 为基,多项式 f ( x ) = a + b x + c x 2 f(x) = a + bx + cx^2 f(x)=a+bx+cx2 的坐标为 [ a b c ] \begin{bmatrix} a \\ b \\ c \end{bmatrix} abc ,其导数 f ′ ( x ) = b + 2 c x f'(x) = b + 2cx f′(x)=b+2cx 的坐标为 [ b 2 c 0 ] \begin{bmatrix} b \\ 2c \\ 0 \end{bmatrix} b2c0 ,因此导数算子对应的矩阵为:
D = [ 0 1 0 0 0 2 0 0 0 ] D = \begin{bmatrix} 0 & 1 & 0 \\ 0 & 0 & 2 \\ 0 & 0 & 0 \end{bmatrix} D= 000100020

12.5 概念的统一与扩展

抽象向量空间中,线性代数关键概念可对应扩展,不同领域术语本质一致,具体如下表所示:

线性代数术语 抽象向量空间术语 函数空间示例
线性变换 线性算子 导数 D ( f ( x ) ) = f ′ ( x ) D(f(x)) = f'(x) D(f(x))=f′(x)
点积 内积 积分内积 ⟨ f , g ⟩ = ∫ a b f ( x ) g ( x ) d x \langle f, g \rangle = \int_a^b f(x)g(x)dx ⟨f,g⟩=∫abf(x)g(x)dx
特征向量 特征函数 微分方程 D ( f ( x ) ) = λ f ( x ) D(f(x)) = \lambda f(x) D(f(x))=λf(x) 的解 f ( x ) = e λ x f(x) = e^{\lambda x} f(x)=eλx

只要对象满足加法与数乘规则,线性代数的所有结论均可适用,体现了数学规律的普适性。

12.6 总结

  • 向量的本质:向量并非局限于箭头或数组,而是满足加法与数乘公理的抽象对象,类似"3"是对"三个事物"的抽象,向量空间是对"具有线性运算属性的集合"的抽象;
  • 抽象性与普适性抽象性是实现普适性的代价(abstractness is the price of generality)。通过公理定义向量空间,可将线性代数应用于函数、多项式等各类领域;
  • 线性代数的关键框架
    1. 向量:满足线性运算的抽象对象;
    2. 矩阵:线性变换的数字表达,列向量对应基向量的变换结果;
    3. 行列式:空间体积的缩放比例,决定矩阵可逆性;
    4. 特征向量/值:变换中方向不变的向量与缩放比例,揭示变换本质;
    5. 抽象向量空间:扩展线性代数的应用范围,实现概念统一。

学习线性代数的关键在于建立"几何直观"而非记忆公式,通过理解概念间的关联,可在机器学习、机器人控制等工程领域灵活应用,突破单纯的计算层面。

学习的过程只能来源于解决问题,来源于带有思考的不断重复 ,但如果你具备了正确的直观 ,你会再以后的学习中更加高效


via:

相关推荐
斐夷所非3 天前
线性代数 | 要义 / 本质 (上篇)
线性代数 | 要义