注:本文为 "线性代数 | 要义 / 本质" 相关合辑。
略排未全校,如有内容异常,请看原文。
- 线性代数 | 要义 / 本质 (上篇)-CSDN博客
https://blog.csdn.net/u013669912/article/details/153110982
【直观详解】线性代数的本质(下篇)
5 行列式的几何意义
The purpose of computation is insight, not numbers - Richard Hamming
计算的目的不在于数字本身,而在于洞察其背后的意义 ------理查德·汉明(没错,是发明汉明码的那个人)
5.1 行列式的定义
行列式是衡量线性变换对空间体积(面积 / 体积)缩放比例 的指标,记为 det ( A ) \det (A) det(A) 或 ∣ A ∣ |A| ∣A∣。
-
二维空间:对于矩阵 A = [ a b c d ] A = \begin {bmatrix} a & b \\ c & d \end {bmatrix} A=[acbd],其行列式为 det ( A ) = a d − b c \det (A) = ad - bc det(A)=ad−bc,几何意义是 "标准基 { ı ^ , ȷ ^ } \{\hat {\imath}, \hat {\jmath}\} {^,^} 构成的单位正方形,经 A A A 变换后形成的平行四边形的面积";
-
三维空间:对于矩阵 A = [ a b c d e f g h i ] A = \begin {bmatrix} a & b & c \\ d & e & f \\ g & h & i \end {bmatrix} A= adgbehcfi ,其行列式为 det ( A ) = a ( e i − f h ) − b ( d i − f g ) + c ( d h − e g ) \det (A) = a (ei - fh) - b (di - fg) + c (dh - eg) det(A)=a(ei−fh)−b(di−fg)+c(dh−eg),几何意义是 "标准基 { ı ^ , ȷ ^ , k ^ } \{\hat {\imath}, \hat {\jmath}, \hat {k}\} {^,^,k^} 构成的单位立方体,经 A A A 变换后形成的平行六面体的体积"。
5.2 行列式的符号与降维
5.2.1 行列式的符号意义
行列式的正负表示线性变换是否改变空间的"定向",具体判断方式随空间维度不同而变化:
- 二维空间 :以单位向量 ı ^ \hat{\imath} ^ 为参照,若 ȷ ^ \hat{\jmath} ^ 经变换后从 ı ^ \hat{\imath} ^ 的左侧转移至右侧(效果类似"纸的翻面"),则行列式为负;反之, ȷ ^ \hat{\jmath} ^ 相对 ı ^ \hat{\imath} ^ 方位不变,行列式为正。
- 三维空间 :空间定向通过右手定则判断------右手四指沿 ı ^ → ȷ ^ → k ^ \hat{\imath} \to \hat{\jmath} \to \hat{k} ^→^→k^ 顺序弯曲,大拇指指向为空间正定向。变换后定向方向相反,行列式为负;定向方向不变,行列式为正。

5.2.2 行列式与空间降维的关系
若矩阵 A A A 的行列式 det ( A ) = 0 \det(A) = 0 det(A)=0,则该矩阵对应的线性变换会导致空间维度降低:
- 二维空间变换后降为直线;
- 三维空间变换后降为平面或直线。
其本质是: det ( A ) = 0 \det(A) = 0 det(A)=0 时,矩阵 A A A 的列向量线性相关,张成的空间维度小于矩阵阶数(如二阶矩阵列向量张成一维空间,三阶矩阵列向量张成二维或一维空间)。
5.2.3 线性变换的性质与行列式的作用
-
线性变换的基本性质 :
线性变换保持图形的平行性,但改变图形的大小与方向;且不必然保持形状------仅旋转、反射等特殊线性变换保形,剪切变换等会改变图形形状。
-
行列式在二维线性变换中的作用 :
行列式是描述矩阵缩放作用的标量值,可确定二维线性变换的两个关键结果:
- 判断朝向变化 :行列式为正 ,图形朝向不变;行列式为负,图形朝向反转。
- 确定面积缩放比例 :行列式的绝对值等于面积缩放比例。绝对值为 1 时面积不变,大于 1 时面积放大,小于 1 时面积缩小。
5.3 行列式的重要性质
由几何意义可直接推导行列式的核心性质:
-
det ( M 1 M 2 ) = det ( M 1 ) det ( M 2 ) \det (M_1M_2) = \det (M_1)\det (M_2) det(M1M2)=det(M1)det(M2):复合变换的体积缩放比例等于各变换缩放比例的乘积;
-
det ( A − 1 ) = 1 det ( A ) \det (A^{-1}) = \frac {1}{\det (A)} det(A−1)=det(A)1:逆变换的缩放比例是原变换的倒数(若原变换放大 k k k 倍,逆变换缩小 1 k \frac {1}{k} k1 倍);
-
det ( k A ) = k n det ( A ) \det (kA) = k^n\det (A) det(kA)=kndet(A): n n n 阶矩阵的数乘变换,体积缩放比例为 k n k^n kn(二维:面积缩放 k 2 k^2 k2,三维:体积缩放 k 3 k^3 k3)。
行列式直观理解
行列式是矩阵的一个数值特征,为建立行列式计算公式与几何直观的联系,二阶矩阵 [ a b c d ] \begin{bmatrix} a&b\\ c&d\end{bmatrix} [acbd] 的行列式,对应其列向量张成图形的有向面积:
-
当 b = c = 0 b = c = 0 b=c=0 时,矩阵为 [ a 0 0 d ] \begin{bmatrix} a&0\\ 0&d\end{bmatrix} [a00d], a a a 是 i ^ \hat{i} i^ 在 x x x 轴的缩放比例, d d d 是 j ^ \hat{j} j^ 在 y y y 轴的缩放比例,行列式 a d ad ad 是单位正方形按 a a a、 d d d 拉伸后的面积(拉伸倍数)。
-
当 b b b、 c c c 非 0 0 0 时,行列式 a d − b c ad - bc ad−bc 综合了 x x x、 y y y 轴拉伸与图形"倾斜压缩"的效果,为变换后图形的有向面积(总缩放比例)。
6 逆矩阵、列空间与零空间
To ask the right question is harder than to answer it - Georg Cantor
提出正确的问题比回答它更难 ------格奥尔格·康托尔
6.1 线性方程组的几何意义
线性方程组的一般形式为 A x ⃗ = v ⃗ A\vec {x} = \vec {v} Ax =v ,其中 A A A 为 n × n n \times n n×n 矩阵, x ⃗ \vec {x} x 为待求向量,

几何直观来翻译个公式即 A x ⃗ A\vec {x} Ax 经过 A A A 矩阵变换后,恰好落在 v ⃗ \vec {v} v 上

从线性变换的角度,该方程的几何意义是:找到向量 x ⃗ \vec {x} x ,使其经 A A A 变换后恰好等于 v ⃗ \vec {v} v。
6.2 逆矩阵与方程组求解
6.2.1 逆矩阵的定义
若存在矩阵 A − 1 A^{-1} A−1,使得 A − 1 A = I A^{-1} A = I A−1A=I( I I I 为单位矩阵, I = [ 1 0 0 1 ] I = \begin {bmatrix} 1 & 0 \\ 0 & 1 \end {bmatrix} I=[1001](二维), I = [ 1 0 0 0 1 0 0 0 1 ] I = \begin {bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end {bmatrix} I= 100010001 (三维)),则称 A − 1 A^{-1} A−1 为 A A A 的逆矩阵。
- 几何意义: A − 1 A^{-1} A−1 对应的变换是 A A A 的 "逆操作"------ 若 A A A 将 x ⃗ \vec {x} x 变换为 v ⃗ \vec {v} v ,则 A − 1 A^{-1} A−1 将 v ⃗ \vec {v} v 变换回 x ⃗ \vec {x} x 。
6.2.2 线性方程组的解
在线性代数中,任意一个 m × n m \times n m×n 型线性方程组均可以表示为矩阵形式 A x = v A\mathbf{x} = \mathbf{v} Ax=v,其中各符号的定义如下:
- A ∈ R m × n A \in \mathbb{R}^{m \times n} A∈Rm×n:称为系数矩阵,由方程组中未知量的系数按原顺序构成;
- x ∈ R n \mathbf{x} \in \mathbb{R}^n x∈Rn:称为未知向量,包含方程组中所有待求解的未知量;
- v ∈ R m \mathbf{v} \in \mathbb{R}^m v∈Rm:称为常数项向量,由方程组等号右侧的常数项构成。
该矩阵形式的核心意义在于:线性方程组 A x = v A\mathbf{x} = \mathbf{v} Ax=v 与从向量空间 R n \mathbb{R}^n Rn 到 R m \mathbb{R}^m Rm 的线性变换 T A : R n → R m T_A: \mathbb{R}^n \to \mathbb{R}^m TA:Rn→Rm(定义为 T A ( x ) = A x T_A(\mathbf{x}) = A\mathbf{x} TA(x)=Ax)一一对应。这种对应关系将"求解方程组"转化为"分析线性变换的性质",我们可从逆变换、列空间、零空间三个维度,系统讨论方程组解的存在性、唯一性及解集合的结构。
1. 逆变换与方程组的唯一解
当线性变换 T A T_A TA 满足"可逆"条件时,方程组 A x = v A\mathbf{x} = \mathbf{v} Ax=v 存在唯一解,具体推导与结论如下:
1.1 可逆的等价条件
线性变换 T A T_A TA 可逆,等价于其对应的系数矩阵 A A A 满足两个条件:
- A A A 是方阵 (即 m = n m = n m=n,方程组的"方程个数"等于"未知量个数");
- A A A 的行列式非零 (即 det ( A ) ≠ 0 \det(A) \neq 0 det(A)=0,此时 A A A 称为可逆矩阵或非奇异矩阵)。
行列式非零的几何意义是:线性变换 T A T_A TA 不会导致向量空间"降维"(例如, R 3 \mathbb{R}^3 R3 中的变换不会将向量映射到 R 2 \mathbb{R}^2 R2 或更低维的空间),因此每个输出向量 v \mathbf{v} v 都能唯一对应一个输入向量 x \mathbf{x} x。
1.2 唯一解的代数形式
若 A A A 可逆,则其逆矩阵 A − 1 A^{-1} A−1 存在且唯一(满足 A − 1 A = A A − 1 = I A^{-1}A = AA^{-1} = I A−1A=AA−1=I,其中 I I I 为单位矩阵)。对 A x = v A\mathbf{x} = \mathbf{v} Ax=v 两边同时左乘 A − 1 A^{-1} A−1,可通过矩阵运算直接求解 x \mathbf{x} x:
A − 1 A x = A − 1 v ⟹ I x = A − 1 v ⟹ x = A − 1 v A^{-1}A\mathbf{x} = A^{-1}\mathbf{v} \implies I\mathbf{x} = A^{-1}\mathbf{v} \implies \mathbf{x} = A^{-1}\mathbf{v} A−1Ax=A−1v⟹Ix=A−1v⟹x=A−1v
从线性变换的角度看,该解等价于"将逆变换 T A − 1 T_A^{-1} TA−1 作用于 v \mathbf{v} v",即 x = T A − 1 ( v ) \mathbf{x} = T_A^{-1}(\mathbf{v}) x=TA−1(v),这进一步印证了解的唯一性------逆变换的输出是唯一的。
2. 列空间与方程组的解的存在性
当 T A T_A TA 不可逆(或 A A A 非方阵)时,方程组 A x = v A\mathbf{x} = \mathbf{v} Ax=v 未必有解,需通过系数矩阵 A A A 的列空间(Column Space)判定解的存在性。
2.1 列空间的定义
系数矩阵 A A A 的列空间(记为 Col ( A ) \text{Col}(A) Col(A))是 A A A 的所有列向量在 R m \mathbb{R}^m Rm 中通过"线性组合"张成的子空间。例如,若 A = [ a 1 a 2 ... a n ] A = [\mathbf{a}_1\ \mathbf{a}_2\ \dots\ \mathbf{a}_n] A=[a1 a2 ... an](其中 a i ∈ R m \mathbf{a}_i \in \mathbb{R}^m ai∈Rm 是 A A A 的第 i i i 列),则:
Col ( A ) = { c 1 a 1 + c 2 a 2 + ⋯ + c n a n ∣ c 1 , c 2 , ... , c n ∈ R } \text{Col}(A) = \left\{ c_1\mathbf{a}_1 + c_2\mathbf{a}_2 + \dots + c_n\mathbf{a}_n \mid c_1, c_2, \dots, c_n \in \mathbb{R} \right\} Col(A)={c1a1+c2a2+⋯+cnan∣c1,c2,...,cn∈R}
其几何意义是:线性变换 T A T_A TA 的所有可能输出向量 构成的集合,即 T A T_A TA 的"值域"。
2.2 解的存在性充要条件
根据列空间的定义,方程组 A x = v A\mathbf{x} = \mathbf{v} Ax=v 有解的本质是" v \mathbf{v} v 属于 T A T_A TA 的值域",因此可得到核心结论:
线性方程组 A x = v A\mathbf{x} = \mathbf{v} Ax=v 有解的充要条件 是:常数项向量 v \mathbf{v} v 属于系数矩阵 A A A 的列空间,即 v ∈ Col ( A ) \mathbf{v} \in \text{Col}(A) v∈Col(A)。
结合行列式的特殊情况(当 A A A 为方阵时):
- 若 det ( A ) ≠ 0 \det(A) \neq 0 det(A)=0( A A A 可逆),则 Col ( A ) = R m \text{Col}(A) = \mathbb{R}^m Col(A)=Rm(列空间充满整个目标空间),因此对任意 v ∈ R m \mathbf{v} \in \mathbb{R}^m v∈Rm,方程组均有解(与第1节结论一致);
- 若 det ( A ) = 0 \det(A) = 0 det(A)=0( A A A 不可逆),则 Col ( A ) \text{Col}(A) Col(A) 是 R m \mathbb{R}^m Rm 的真子空间(维度低于 m m m),此时仅当 v \mathbf{v} v 落在该真子空间内时,方程组有解,否则无解。
3. 零空间与方程组的解集合结构
当方程组 A x = v A\mathbf{x} = \mathbf{v} Ax=v 有解时,解的个数可能是"唯一"或"无穷多",需通过系数矩阵 A A A 的零空间(Null Space)刻画解集合的完整结构。
3.1 零空间的定义
系数矩阵 A A A 的零空间(记为 Nul ( A ) \text{Nul}(A) Nul(A))是齐次线性方程组 A x = 0 A\mathbf{x} = \mathbf{0} Ax=0(常数项向量全为0的方程组)的所有解向量在 R n \mathbb{R}^n Rn 中构成的子空间,即:
Nul ( A ) = { z ∈ R n ∣ A z = 0 } \text{Nul}(A) = \left\{ \mathbf{z} \in \mathbb{R}^n \mid A\mathbf{z} = \mathbf{0} \right\} Nul(A)={z∈Rn∣Az=0}
齐次方程组 A x = 0 A\mathbf{x} = \mathbf{0} Ax=0 始终有解(至少存在零解 x = 0 \mathbf{x} = \mathbf{0} x=0),因此零空间 Nul ( A ) \text{Nul}(A) Nul(A) 永远非空。
3.2 解集合的结构定理
设非齐次方程组 A x = v A\mathbf{x} = \mathbf{v} Ax=v 有解,且 x 0 \mathbf{x}_0 x0 是其任意一个特解 (即满足 A x 0 = v A\mathbf{x}_0 = \mathbf{v} Ax0=v 的某个固定解),则方程组的所有解 可表示为"特解 + 零空间中任意向量"的形式,即:
x = x 0 + z , 其中 z ∈ Nul ( A ) \mathbf{x} = \mathbf{x}_0 + \mathbf{z}, \quad \text{其中 } \mathbf{z} \in \text{Nul}(A) x=x0+z,其中 z∈Nul(A)
该定理的逻辑验证如下:
-
解的有效性 :若 z ∈ Nul ( A ) \mathbf{z} \in \text{Nul}(A) z∈Nul(A),则 A z = 0 A\mathbf{z} = \mathbf{0} Az=0,因此 A ( x 0 + z ) = A x 0 + A z = v + 0 = v A(\mathbf{x}_0 + \mathbf{z}) = A\mathbf{x}_0 + A\mathbf{z} = \mathbf{v} + \mathbf{0} = \mathbf{v} A(x0+z)=Ax0+Az=v+0=v,即 x 0 + z \mathbf{x}_0 + \mathbf{z} x0+z 是方程组的解;
-
解的完整性 :设 x \mathbf{x} x 是方程组的任意一个解,则 A ( x − x 0 ) = A x − A x 0 = v − v = 0 A(\mathbf{x} - \mathbf{x}_0) = A\mathbf{x} - A\mathbf{x}_0 = \mathbf{v} - \mathbf{v} = \mathbf{0} A(x−x0)=Ax−Ax0=v−v=0,即 x − z ∈ Nul ( A ) \mathbf{x} - \mathbf{z} \in \text{Nul}(A) x−z∈Nul(A),因此 x \mathbf{x} x 可表示为 x 0 + ( x − x 0 ) \mathbf{x}_0 + (\mathbf{x} - \mathbf{x}_0) x0+(x−x0),符合上述形式。
3.3 特殊情况的解集合
根据上述定理,可进一步明确两类典型方程组的解集合:
- 非齐次方程组 A x = v A\mathbf{x} = \mathbf{v} Ax=v :
- 若 v ∉ Col ( A ) \mathbf{v} \notin \text{Col}(A) v∈/Col(A):解集合为空集(无解);
- 若 v ∈ Col ( A ) \mathbf{v} \in \text{Col}(A) v∈Col(A):解集合为 { x 0 + z ∣ z ∈ Nul ( A ) } \left\{ \mathbf{x}_0 + \mathbf{z} \mid \mathbf{z} \in \text{Nul}(A) \right\} {x0+z∣z∈Nul(A)}(无穷多解,除非 Nul ( A ) = { 0 } \text{Nul}(A) = \left\{ \mathbf{0} \right\} Nul(A)={0},即零空间仅含零向量,此时解唯一)。
- 齐次方程组 A x = 0 A\mathbf{x} = \mathbf{0} Ax=0 :
- 特解 x 0 = 0 \mathbf{x}_0 = \mathbf{0} x0=0(零解),因此解集合就是零空间 Nul ( A ) \text{Nul}(A) Nul(A);
- 若 Nul ( A ) = { 0 } \text{Nul}(A) = \left\{ \mathbf{0} \right\} Nul(A)={0},则仅有零解;若 Nul ( A ) \text{Nul}(A) Nul(A) 维度大于0,则有无穷多非零解。
6.3 列空间(Column Space)
矩阵 A A A 的列空间 是其所有列向量张成的空间,记为 C ( A ) C (A) C(A)。
- 几何意义:列空间是线性变换 A A A 的 "所有可能输出向量" 的集合(即 A x ⃗ A\vec {x} Ax 的所有可能结果);
- 维度与秩:列空间的维度称为矩阵的秩 (记为 rank ( A ) \text {rank}(A) rank(A))。对于 n × n n \times n n×n 矩阵,若 rank ( A ) = n \text {rank}(A) = n rank(A)=n(满秩),则列空间是整个 n n n 维空间;若 rank ( A ) < n \text {rank}(A) < n rank(A)<n(降秩),则列空间是 n n n 维空间的一个子空间(如二维中的直线、三维中的平面)。

重要性质 :零向量 0 ⃗ \vec {0} 0 一定在列空间中(令 x ⃗ = 0 ⃗ \vec {x} = \vec {0} x =0 ,则 A 0 ⃗ = 0 ⃗ A\vec {0} = \vec {0} A0 =0 )。
6.4 零空间(Null Space)
所有经过该矩阵变换后落在原点的向量的集合,称为该矩阵(再次强调,矩阵是变换的数字表达)的零空间或核。
图 1 二维空间压缩到一条直线(一维),其中一条直线(一维)上的点被压缩到原点。
图 2 三维空间压缩到一个平面(二维),其中一条直线(一维)上的点被压缩到原点。
图 3 三维空间压缩到一条直线(一维),其中一个平面(二维)上的点被压缩到原点。
注意: 线性压缩是一种线性变换,而矩阵是线性变换在给定基下的代数表示(数字表达),二者一一对应但并非等同。
矩阵 A A A 的零空间 是满足 A x ⃗ = 0 ⃗ A\vec {x} = \vec {0} Ax =0 的所有向量 x ⃗ \vec {x} x 的集合,记为 N ( A ) N (A) N(A)。
- 几何意义:零空间是线性变换 A A A 中 "被压缩到原点的向量" 的集合;
- 维度关系(秩 - 零定理):对于 n × n n \times n n×n 矩阵, rank ( A ) + dim ( N ( A ) ) = n \text {rank}(A) + \dim (N (A)) = n rank(A)+dim(N(A))=n(列空间维度与零空间维度之和等于矩阵的阶数)。
示例:
- 若 A A A 是 2 × 2 2 \times 2 2×2 矩阵且 det ( A ) = 0 \det (A) = 0 det(A)=0(二维→一维),则零空间是一条直线(所有被压缩到原点的向量构成的直线);
- 若 A A A 是 3 × 3 3 \times 3 3×3 矩阵且 rank ( A ) = 2 \text {rank}(A) = 2 rank(A)=2(三维→二维),则零空间是一条直线( dim ( N ( A ) ) = 3 − 2 = 1 \dim (N (A)) = 3 - 2 = 1 dim(N(A))=3−2=1)。
6.4.1 秩-零化度定理
零化度(Nullity)是线性代数中矩阵零空间的维数,是衡量矩阵"将向量映射为零向量"能力的重要指标。
- 零空间(Null Space,又称核空间 Kernel):指矩阵 A ∈ R m × n A \in \mathbb{R}^{m \times n} A∈Rm×n 的所有解向量 x ∈ R n \mathbf{x} \in \mathbb{R}^n x∈Rn 的集合,即 N ( A ) = { x ∈ R n ∣ A x = 0 } \text{N}(A) = \{\mathbf{x} \in \mathbb{R}^n \mid A\mathbf{x} = \mathbf{0}\} N(A)={x∈Rn∣Ax=0}。
- 零化度的本质:零空间作为一个向量空间,其维数 即为零化度(记为 nullity ( A ) \text{nullity}(A) nullity(A)),等价于零空间中"极大线性无关组的向量个数"(即零空间的基向量数)。
- 零化度的计算:通过对矩阵 A A A 做初等行变换化为行最简形,解线性方程组 A x = 0 A\mathbf{x} = \mathbf{0} Ax=0 得到自由变量的个数,该个数即为零化度(自由变量数 = 零空间维数)。
对任意 m × n m \times n m×n 矩阵 A A A,其列空间的维数 (即秩 rank ( A ) \text{rank}(A) rank(A))与零空间的维数 (零化度)之和,等于矩阵的列数 n n n,即:
dim ( Col ( A ) ) + dim ( Nul ( A ) ) = n \dim(\text{Col}(A)) + \dim(\text{Nul}(A)) = n dim(Col(A))+dim(Nul(A))=n
注意:是"维数之和",而非"空间本身相加"------列空间( R m \mathbb{R}^m Rm 子空间)与零空间( R n \mathbb{R}^n Rn 子空间)维度可能不同,无法直接叠加。
6.4.2 满秩与列空间、零空间
"满秩"是矩阵的属性( rank ( A ) = min ( m , n ) \text{rank}(A) = \min(m, n) rank(A)=min(m,n)),结合上述定理分析:
- 若 A A A 为 n × n n \times n n×n 方阵(满秩即 rank ( A ) = n \text{rank}(A) = n rank(A)=n):
由定理得 dim ( Nul ( A ) ) = 0 \dim(\text{Nul}(A)) = 0 dim(Nul(A))=0(零空间仅含零向量),且列空间 Col ( A ) = R n \text{Col}(A) = \mathbb{R}^n Col(A)=Rn(满维子空间)。 - 若 A A A 为长方阵(如 m < n m < n m<n 时满秩即 rank ( A ) = m \text{rank}(A) = m rank(A)=m):
列空间 Col ( A ) = R m \text{Col}(A) = \mathbb{R}^m Col(A)=Rm(满维),零空间维数 n − m > 0 n - m > 0 n−m>0(含非零解)。
7 非方阵的几何意义
On this quiz, I asked you to find the determinant of a 2*3 matrix. Some of you, to my great amusement, actually tried to do this - no name listed
在这个小测试里,我让你们求一个 2*3 矩阵的行列式。让我感到非常可笑的是,你们当中竟然有人尝试去做 ------佚名
7.1 非方阵的维度映射
非方阵(如 m × n m \times n m×n 矩阵, m ≠ n m \neq n m=n)对应的线性变换是不同维度空间之间的映射:
- m × n m \times n m×n 矩阵:将 n n n 维输入空间映射到 m m m 维输出空间;
- 示例: 3 × 2 3 \times 2 3×2 矩阵将二维空间映射到三维空间(输入为 2 2 2 维向量,输出为 3 3 3 维向量),其列向量是二维标准基 { ı ^ , ȷ ^ } \{\hat {\imath}, \hat {\jmath}\} {^,^} 在三维空间中的变换结果。
7.2 非方阵乘法的条件
两个非方阵 M 1 M_1 M1( p × q p \times q p×q)与 M 2 M_2 M2( q × r q \times r q×r)可相乘的充要条件是:前一个矩阵的列数等于后一个矩阵的行数 (即 M 1 M_1 M1 的输入维度等于 M 2 M_2 M2 的输出维度),乘积矩阵 M = M 1 M 2 M = M_1M_2 M=M1M2 的维度为 p × r p \times r p×r。
- 几何意义: M 2 M_2 M2 将 r r r 维空间映射到 q q q 维空间, M 1 M_1 M1 再将 q q q 维空间映射到 p p p 维空间,复合变换的输入维度为 r r r,输出维度为 p p p,与乘积矩阵维度一致。
7.3 非方阵的行列式
非方阵不存在行列式,因为行列式的核心是 "体积缩放比例",而不同维度空间之间的映射(如二维→三维)无法定义 "体积比"(二维空间的 "面积" 与三维空间的 "体积" 单位不同,无直接比例关系)。
8 点积与对偶性
卡尔文:你知道吗,我觉数学不是一门科学,而是一种宗教。
霍布斯:一种宗教?
卡尔文:是啊。这些公式就像奇迹一般。你取出两个数,把它们相加时,它们神奇地成为了一个全新的数!没人能说清这到底是怎么发生的。你要么完全相信,要么完全不信。
8.1 点积的定义与几何意义
8.1.1 代数定义
对于 n n n 维向量 v ⃗ = [ v 1 v 2 ⋯ v n ] \vec {v} = \begin {bmatrix} v_1 \\ v_2 \\ \cdots \\ v_n \end {bmatrix} v = v1v2⋯vn 与 w ⃗ = [ w 1 w 2 ⋯ w n ] \vec {w} = \begin {bmatrix} w_1 \\ w_2 \\ \cdots \\ w_n \end {bmatrix} w = w1w2⋯wn ,其点积为:
v ⃗ ⋅ w ⃗ = v 1 w 1 + v 2 w 2 + ⋯ + v n w n \vec {v} \cdot \vec {w} = v_1w_1 + v_2w_2 + \cdots + v_nw_n v ⋅w =v1w1+v2w2+⋯+vnwn

8.1.2 几何意义
点积的几何意义是 "一个向量在另一个向量上的投影长度与被投影向量长度的乘积",即:
v ⃗ ⋅ w ⃗ = ∥ v ⃗ ∥ ⋅ ∥ w ⃗ ∥ ⋅ cos θ \vec {v} \cdot \vec {w} = \|\vec {v}\| \cdot \|\vec {w}\| \cdot \cos\theta v ⋅w =∥v ∥⋅∥w ∥⋅cosθ
其中 θ \theta θ 是 v ⃗ \vec {v} v 与 w ⃗ \vec {w} w 的夹角, ∥ v ⃗ ∥ = v 1 2 + v 2 2 + ⋯ + v n 2 \|\vec {v}\| = \sqrt {v_1^2 + v_2^2 + \cdots + v_n^2} ∥v ∥=v12+v22+⋯+vn2 是 v ⃗ \vec {v} v 的长度(模)。
- 符号含义: cos θ > 0 \cos\theta > 0 cosθ>0( θ < 9 0 ∘ \theta < 90^\circ θ<90∘)时,点积为正; cos θ < 0 \cos\theta < 0 cosθ<0( θ > 9 0 ∘ \theta > 90^\circ θ>90∘)时,点积为负; cos θ = 0 \cos\theta = 0 cosθ=0( θ = 9 0 ∘ \theta = 90^\circ θ=90∘)时,点积为 0 0 0(两向量垂直)。

8.2 点积的交换律
点积满足交换律: v ⃗ ⋅ w ⃗ = w ⃗ ⋅ v ⃗ \vec {v} \cdot \vec {w} = \vec {w} \cdot \vec {v} v ⋅w =w ⋅v ,几何解释如下:
- 若 ∥ v ⃗ ∥ = ∥ w ⃗ ∥ \|\vec {v}\| = \|\vec {w}\| ∥v ∥=∥w ∥,则 v ⃗ \vec {v} v 在 w ⃗ \vec {w} w 上的投影长度等于 w ⃗ \vec {w} w 在 v ⃗ \vec {v} v 上的投影长度,乘积相等;
- 若 ∥ v ⃗ ∥ ≠ ∥ w ⃗ ∥ \|\vec {v}\| \neq \|\vec {w}\| ∥v ∥=∥w ∥,设 v ⃗ \vec {v} v 的长度为 k ∥ w ⃗ ∥ k\|\vec {w}\| k∥w ∥,则 v ⃗ \vec {v} v 在 w ⃗ \vec {w} w 上的投影长度为 k k k 倍 w ⃗ \vec {w} w 在 v ⃗ \vec {v} v 上的投影长度,乘积仍相等(如 v ⃗ = 2 u ⃗ \vec {v} = 2\vec {u} v =2u ,则 2 u ⃗ ⋅ w ⃗ = 2 ( u ⃗ ⋅ w ⃗ ) = w ⃗ ⋅ 2 u ⃗ 2\vec {u} \cdot \vec {w} = 2 (\vec {u} \cdot \vec {w}) = \vec {w} \cdot 2\vec {u} 2u ⋅w =2(u ⋅w )=w ⋅2u )。

8.3 对偶性:点积与线性变换的对应
8.3.1 多维到一维的线性变换
1 × n 1 \times n 1×n 矩阵(行向量)对应的线性变换是将 n n n 维空间映射到一维空间(数轴)。

例如, 1 × 2 1 \times 2 1×2 矩阵 [ a b ] \begin {bmatrix} a & b \end {bmatrix} [ab] 对二维向量 [ x y ] \begin {bmatrix} x \\ y \end {bmatrix} [xy] 的变换结果为 a x + b y ax + by ax+by,这与点积 [ a b ] ⋅ [ x y ] \begin {bmatrix} a \\ b \end {bmatrix} \cdot \begin {bmatrix} x \\ y \end {bmatrix} [ab]⋅[xy] 完全一致。
8.3.2 对偶性的定义
对偶性是指 "多维到一维的线性变换" 与 "该空间中的向量" 之间的一一对应关系:

- 对于任意 n n n 维到一维的线性变换 L ( x ⃗ ) L (\vec {x}) L(x ),存在唯一的 n n n 维向量 u ⃗ \vec {u} u ,使得 L ( x ⃗ ) = u ⃗ ⋅ x ⃗ L (\vec {x}) = \vec {u} \cdot \vec {x} L(x )=u ⋅x ;
- 反之,任意 n n n 维向量 u ⃗ \vec {u} u 都可定义一个 n n n 维到一维的线性变换 L ( x ⃗ ) = u ⃗ ⋅ x ⃗ L (\vec {x}) = \vec {u} \cdot \vec {x} L(x )=u ⋅x 。
几何解释 :设 u ⃗ \vec {u} u 是一维空间(数轴)的单位向量, L ( x ⃗ ) L (\vec {x}) L(x ) 是 x ⃗ \vec {x} x 在 u ⃗ \vec {u} u 所在数轴上的投影长度,则 L ( x ⃗ ) = u ⃗ ⋅ x ⃗ L (\vec {x}) = \vec {u} \cdot \vec {x} L(x )=u ⋅x (投影长度等于 x ⃗ \vec {x} x 与单位向量 u ⃗ \vec {u} u 的点积)。

9 叉积
每一个维度都很特别。------ 杰弗里・拉加里亚斯(Jeffrey Lagarias)
从他(格罗滕迪克)和他的作为中,我还学到了一点:不以高难度的证明为傲,因为难度高意味着我们还不理解。理想的情况是能够绘出一幅美景,而其中的证明显而易见。
9.1 二维情况下的叉积类比
在二维空间中,向量 v ⃗ \vec{v} v 与 w ⃗ \vec{w} w 张成的平行四边形的面积 ,可类比为二维 "叉积"(注:严格意义上的叉积仅定义于三维空间,二维情况实为面积的代数值),记为 v ⃗ × w ⃗ \vec{v} \times \vec{w} v ×w 。
该结果的正负号由基向量 ı ^ \hat{\imath} ^ 和 ȷ ^ \hat{\jmath} ^ 的相对位置关系确定:若 v ⃗ \vec{v} v 与 w ⃗ \vec{w} w 张成的平行四边形中, ȷ ^ \hat{\jmath} ^ 相对于 ı ^ \hat{\imath} ^ 的位置与原始坐标系一致,则结果为正;反之则为负。
结合几何直观,可得出以下结论:
-
向量 v ⃗ \vec{v} v 与 w ⃗ \vec{w} w 的夹角越接近 9 0 ∘ 90^\circ 90∘(垂直),二者张成的平行四边形面积越大;
-
叉积满足分配律,即 v ⃗ × ( w ⃗ 1 + w ⃗ 2 ) = v ⃗ × w ⃗ 1 + v ⃗ × w ⃗ 2 \vec{v} \times (\vec{w}_1 + \vec{w}_2) = \vec{v} \times \vec{w}_1 + \vec{v} \times \vec{w}_2 v ×(w 1+w 2)=v ×w 1+v ×w 2。
9.2 真正的叉积定义
严格意义上的叉积 定义于三维空间:给定两个三维向量 v ⃗ \vec{v} v 与 w ⃗ \vec{w} w ,二者的叉积运算将产生一个新的三维向量 p ⃗ \vec{p} p ,且满足以下两个条件:
-
向量 p ⃗ \vec{p} p 的长度等于 v ⃗ \vec{v} v 与 w ⃗ \vec{w} w 张成的平行四边形的面积;
-
向量 p ⃗ \vec{p} p 的方向与 v ⃗ \vec{v} v 和 w ⃗ \vec{w} w 张成的平面垂直,其具体方向由右手定则 确定:将右手食指指向 v ⃗ \vec{v} v 的方向,中指指向 w ⃗ \vec{w} w 的方向,此时大拇指所指方向即为 p ⃗ \vec{p} p 的方向。
9.3 叉积计算公式
三维向量叉积的计算公式可通过行列式形式表示,如下所示:
v ⃗ × w ⃗ = [ v 1 v 2 v 3 ] × [ w 1 w 2 w 3 ] = det ( ı ^ v 1 w 1 ȷ ^ v 2 w 2 k ^ v 3 w 3 ) \vec{v} \times \vec{w} = \begin{bmatrix} v_1 \\ v_2 \\ v_3 \end{bmatrix} \times \begin{bmatrix} w_1 \\ w_2 \\ w_3 \end{bmatrix} = \det\begin{pmatrix} \hat{\imath} & v_1 & w_1 \\ \hat{\jmath} & v_2 & w_2 \\ \hat{k} & v_3 & w_3 \end{pmatrix} v ×w = v1v2v3 × w1w2w3 =det ^^k^v1v2v3w1w2w3
展开上述行列式,可得:
v ⃗ × w ⃗ = ı ^ ( v 2 w 3 − v 3 w 2 ) − ȷ ^ ( v 1 w 3 − v 3 w 1 ) + k ^ ( v 1 w 2 − v 2 w 1 ) \vec{v} \times \vec{w} = \hat{\imath}(v_2 w_3 - v_3 w_2) - \hat{\jmath}(v_1 w_3 - v_3 w_1) + \hat{k}(v_1 w_2 - v_2 w_1) v ×w =^(v2w3−v3w2)−^(v1w3−v3w1)+k^(v1w2−v2w1)
其中, ı ^ \hat{\imath} ^、 ȷ ^ \hat{\jmath} ^、 k ^ \hat{k} k^ 为三维空间的标准单位基向量,这三个基向量前面的系数(即 v 2 w 3 − v 3 w 2 v_2 w_3 - v_3 w_2 v2w3−v3w2、 − ( v 1 w 3 − v 3 w 1 ) -(v_1 w_3 - v_3 w_1) −(v1w3−v3w1)、 v 1 w 2 − v 2 w 1 v_1 w_2 - v_2 w_1 v1w2−v2w1)分别对应叉积结果向量 p ⃗ \vec{p} p 的 x x x、 y y y、 z z z 坐标值。
初次接触该公式时,多数学习者难以理解其形式由来,甚至部分教学过程仅要求记忆公式而不解释逻辑。但基于 "直观理解" 的核心原则,需进一步探明公式的推导过程。
9.4 叉积计算的几何直观
在推导前,需再次强化对偶性的核心概念:每当遇到一个从 "多维空间到数轴" 的线性变换时,该空间中必然存在唯一一个向量与之对应 ------"将线性变换作用于某个向量" 的结果,与 "该向量和对应向量的点积运算" 结果完全等价。
叉积的运算过程正是对偶性的典型实例:根据向量 v ⃗ \vec{v} v 和 w ⃗ \vec{w} w 定义一个从三维空间到数轴的特定线性变换,找到该变换的对偶向量,这个对偶向量即为 v ⃗ \vec{v} v 与 w ⃗ \vec{w} w 的叉积。具体推导步骤如下:
9.4.1 定义线性变换 f ( u ⃗ ) f(\vec{u}) f(u )
已知三维空间中, 3 × 3 3 \times 3 3×3 矩阵的行列式值等于该矩阵三个列向量(或行向量)张成的平行六面体的体积。若将矩阵的第一列替换为自变量向量 u ⃗ = ( x , y , z ) \vec{u} = (x, y, z) u =(x,y,z),后两列固定为向量 v ⃗ \vec{v} v 和 w ⃗ \vec{w} w ,则可定义函数:
f ( u ⃗ ) = det ( u ⃗ v ⃗ w ⃗ ) f(\vec{u}) = \det\begin{pmatrix} \vec{u} & \vec{v} & \vec{w} \end{pmatrix} f(u )=det(u v w )

该函数的几何意义为:平行六面体的体积随自变量向量 u ⃗ \vec{u} u 的变化而变化( "平行六面体随白色向量 ( x , y , z ) (x,y,z) (x,y,z) 的随机游走而不断改变" )。此时核心问题转化为:根据 v ⃗ \vec{v} v 和 w ⃗ \vec{w} w ,找到一个变换(矩阵或函数),使得上述等式成立。
9.4.2 利用对偶性转化问题
由于 f ( u ⃗ ) f(\vec{u}) f(u ) 满足线性变换的 "可加性" 与 "成比例性"(即线性性质),根据对偶性原理,存在一个三维向量 p ⃗ \vec{p} p ,使得对任意向量 u ⃗ \vec{u} u ,均有:
f ( u ⃗ ) = p ⃗ ⋅ u ⃗ f(\vec{u}) = \vec{p} \cdot \vec{u} f(u )=p ⋅u

"将 1 × 3 1 \times 3 1×3 的变换矩阵转置,写成点积形式" 的逻辑 ------ 通过对偶性,将 "线性变换作用于 u ⃗ \vec{u} u " 转化为 " u ⃗ \vec{u} u 与 p ⃗ \vec{p} p 的点积",此时问题进一步转化为:寻找向量 p ⃗ \vec{p} p ,使得上述等式成立。

9.4.3 确定 p ⃗ \vec{p} p 的方向与长度
(1) p ⃗ \vec{p} p 的方向:与 v ⃗ \vec{v} v 、 w ⃗ \vec{w} w 张成的平面垂直
根据点积的几何意义, p ⃗ ⋅ u ⃗ \vec{p} \cdot \vec{u} p ⋅u 表示 "将 u ⃗ \vec{u} u 投影到 p ⃗ \vec{p} p 上,投影长度与 p ⃗ \vec{p} p 的长度相乘";而平行六面体的体积公式为 "底面积 × 高",其中 "高" 是 u ⃗ \vec{u} u 在 "与底面积垂直方向" 上的投影长度(底面积为 v ⃗ \vec{v} v 与 w ⃗ \vec{w} w 张成的平行四边形面积)。

为使 "点积结果" 与 "体积" 相等, p ⃗ \vec{p} p 的方向必须与 v ⃗ \vec{v} v 、 w ⃗ \vec{w} w 张成的平面垂直 ------ 只有这样, u ⃗ \vec{u} u 在 p ⃗ \vec{p} p 上的投影长度才等于平行六面体的高,满足 "体积 = 底面积 × 高" 的逻辑。
(2) p ⃗ \vec{p} p 的长度:等于 v ⃗ \vec{v} v 、 w ⃗ \vec{w} w 张成的平行四边形面积
结合点积公式与体积公式:
-
点积: p ⃗ ⋅ u ⃗ = ∣ p ⃗ ∣ × ∣ u ⃗ 投影 ∣ \vec{p} \cdot \vec{u} = |\vec{p}| \times |\vec{u}{\text{投影}}| p ⋅u =∣p ∣×∣u 投影∣( ∣ u ⃗ 投影 ∣ |\vec{u}{\text{投影}}| ∣u 投影∣ 为 u ⃗ \vec{u} u 在 p ⃗ \vec{p} p 上的投影长度);
-
体积: V = S × ∣ u ⃗ 投影 ∣ V = S \times |\vec{u}_{\text{投影}}| V=S×∣u 投影∣( S S S 为 v ⃗ \vec{v} v 与 w ⃗ \vec{w} w 张成的平行四边形面积)。
由于 p ⃗ ⋅ u ⃗ = V \vec{p} \cdot \vec{u} = V p ⋅u =V,代入后可得 ∣ p ⃗ ∣ = S |\vec{p}| = S ∣p ∣=S,即 p ⃗ \vec{p} p 的长度等于 v ⃗ \vec{v} v 与 w ⃗ \vec{w} w 张成的平行四边形面积。
9.4.4 对偶性的价值
通过上述推导,再次验证了对偶性的意义 ------ 它建立了 "线性变换" 与 "向量" 之间自然且出乎意料的对应关系。基于几何直观理解叉积公式的由来,而非单纯记忆,是加深概念记忆、实现深度理解的有效途径。
9.5 总结
通过以下步骤可回顾叉积的核心逻辑,检验对概念的掌握程度:
-
基于 v ⃗ \vec{v} v 和 w ⃗ \vec{w} w ,定义一个从三维空间到数轴的线性变换 f ( u ⃗ ) = det ( u ⃗ v ⃗ w ⃗ ) f(\vec{u}) = \det\begin{pmatrix} \vec{u} & \vec{v} & \vec{w} \end{pmatrix} f(u )=det(u v w );
-
利用对偶性,将线性变换 f ( u ⃗ ) f(\vec{u}) f(u ) 转化为 " u ⃗ \vec{u} u 与某向量 p ⃗ \vec{p} p 的点积",即 f ( u ⃗ ) = p ⃗ ⋅ u ⃗ f(\vec{u}) = \vec{p} \cdot \vec{u} f(u )=p ⋅u ;
-
为满足 "点积结果 = 平行六面体体积",推导得出: p ⃗ \vec{p} p 的方向与 v ⃗ \vec{v} v 、 w ⃗ \vec{w} w 张成的平面垂直,长度等于该平面内平行四边形的面积;
-
将 ı ^ \hat{\imath} ^、 ȷ ^ \hat{\jmath} ^、 k ^ \hat{k} k^ 代入行列式第一列并展开,即可得到叉积的计算公式,而该行列式的结果向量正是对偶向量 p ⃗ \vec{p} p ,即 v ⃗ × w ⃗ = p ⃗ \vec{v} \times \vec{w} = \vec{p} v ×w =p 。
在几何直观上,这个对偶向量 一定与 v ⃗ \vec{v} v 和 w ⃗ \vec{w} w 垂直 ,并且其长度与这两个向量张成的平行四边形的面积相同。
10 基变换与坐标转换
Mathematics is the art of givinh the same name to different things -Henri Poincare
数学是一门赋予不同事物相同名称的艺术 ------昂利·庞加莱
10.1 基的定义与坐标表示
设 { b 1 ⃗ , b 2 ⃗ , ⋯ , b n ⃗ } \{\vec {b_1}, \vec {b_2}, \cdots, \vec {b_n}\} {b1 ,b2 ,⋯,bn } 是 n n n 维空间的一组基,任意向量 x ⃗ \vec {x} x 可唯一表示为:
x ⃗ = c 1 b 1 ⃗ + c 2 b 2 ⃗ + ⋯ + c n b n ⃗ \vec {x} = c_1\vec {b_1} + c_2\vec {b_2} + \cdots + c_n\vec {b_n} x =c1b1 +c2b2 +⋯+cnbn
其中 [ c 1 c 2 ⋯ c n ] \begin {bmatrix} c_1 \\ c_2 \\ \cdots \\ c_n \end {bmatrix} c1c2⋯cn 称为 x ⃗ \vec {x} x 在基 { b 1 ⃗ , ⋯ , b n ⃗ } \{\vec {b_1}, \cdots, \vec {b_n}\} {b1 ,⋯,bn } 下的坐标。
10.1.2 标准基与非标准基的转换
设标准基为 { ı ^ , ȷ ^ } \{\hat {\imath}, \hat {\jmath}\} {^,^}(二维),非标准基为 { b 1 ⃗ , b 2 ⃗ } \{\vec {b_1}, \vec {b_2}\} {b1 ,b2 },其中 b 1 ⃗ = [ 2 1 ] \vec {b_1} = \begin {bmatrix} 2 \\ 1 \end {bmatrix} b1 =[21], b 2 ⃗ = [ − 1 1 ] \vec {b_2} = \begin {bmatrix} -1 \\ 1 \end {bmatrix} b2 =[−11](用标准基表示)。
- 基变换矩阵:将非标准基向量作为列构成矩阵 T = [ 2 − 1 1 1 ] T = \begin {bmatrix} 2 & -1 \\ 1 & 1 \end {bmatrix} T=[21−11],称为 "从非标准基到标准基的转换矩阵";
- 坐标转换:若 x ⃗ \vec {x} x 在非标准基下的坐标为 [ c 1 c 2 ] \begin {bmatrix} c_1 \\ c_2 \end {bmatrix} [c1c2],则其在标准基下的坐标为 [ x 1 x 2 ] = T [ c 1 c 2 ] \begin {bmatrix} x_1 \\ x_2 \end {bmatrix} = T\begin {bmatrix} c_1 \\ c_2 \end {bmatrix} [x1x2]=T[c1c2];
- 逆转换:若已知 x ⃗ \vec {x} x 在标准基下的坐标,其在非标准基下的坐标为 [ c 1 c 2 ] = T − 1 [ x 1 x 2 ] \begin {bmatrix} c_1 \\ c_2 \end {bmatrix} = T^{-1}\begin {bmatrix} x_1 \\ x_2 \end {bmatrix} [c1c2]=T−1[x1x2],其中 T − 1 T^{-1} T−1 是 T T T 的逆矩阵。
10.2 线性变换在不同基下的矩阵
设线性变换 L L L 在标准基下的矩阵为 M M M,在非标准基 { b 1 ⃗ , b 2 ⃗ } \{\vec {b_1}, \vec {b_2}\} {b1 ,b2 } 下的矩阵为 M ′ M' M′,则 M ′ M' M′ 与 M M M 的关系为:
M ′ = T − 1 M T M' = T^{-1} MT M′=T−1MT
其中 T T T 是从非标准基到标准基的转换矩阵。
10.2.2 几何意义
- T T T:将非标准基下的坐标转换为标准基下的坐标;
- M M M:在标准基下应用线性变换;
- T − 1 T^{-1} T−1:将标准基下的变换结果转换回非标准基下的坐标;
- 整体效果: M ′ M' M′ 描述了同一线性变换在非标准基下的数字表达。
示例 :设 L L L 是 "左旋转 9 0 ∘ 90^\circ 90∘" 的变换,标准基下的矩阵 M = [ 0 − 1 1 0 ] M = \begin {bmatrix} 0 & -1 \\ 1 & 0 \end {bmatrix} M=[01−10],非标准基转换矩阵 T = [ 2 − 1 1 1 ] T = \begin {bmatrix} 2 & -1 \\ 1 & 1 \end {bmatrix} T=[21−11],则非标准基下的变换矩阵为:
M ′ = T − 1 M T = 1 3 [ 1 1 − 1 2 ] × [ 0 − 1 1 0 ] × [ 2 − 1 1 1 ] = [ 1 3 − 1 3 2 3 − 1 ] M' = T^{-1} MT = \frac {1}{3}\begin {bmatrix} 1 & 1 \\ -1 & 2 \end {bmatrix} \times \begin {bmatrix} 0 & -1 \\ 1 & 0 \end {bmatrix} \times \begin {bmatrix} 2 & -1 \\ 1 & 1 \end {bmatrix} = \begin {bmatrix} \frac {1}{3} & -\frac {1}{3} \\ \frac {2}{3} & -1 \end {bmatrix} M′=T−1MT=31[1−112]×[01−10]×[21−11]=[3132−31−1]
11 特征向量与特征值
本节将系统梳理特征向量与特征值的定义、意义、计算方法及特殊情况,同时探讨特征基的应用,建立其与线性变换、行列式等前置知识的关联,深化对线性代数变换本质的理解。
11.1 特征向量与特征值的定义
设对 ı ^ \hat{\imath} ^ 和 ȷ ^ \hat{\jmath} ^ 张成的空间进行线性变换,基变换为 ı ^ ′ = [ 3 0 ] \hat{\imath}' = \begin{bmatrix} 3 \\ 0 \end{bmatrix} ^′=[30]、 ȷ ^ ′ = [ 1 2 ] \hat{\jmath}' = \begin{bmatrix} 1 \\ 2 \end{bmatrix} ^′=[12]。变换中,大部分向量会脱离自身张成空间(原点到向量终点的直线),但部分向量仍留在该空间内,仅被拉伸或压缩。

如图所示, x x x 轴上所有向量被伸长为原来的 3 倍,向量 ( − 1 , 1 ) (-1, 1) (−1,1) 被伸长为原来的 2 倍,基于此可给出如下定义:
- 变换中留在自身张成空间内的向量,称为特征向量 (如 x x x 轴上的向量、 ( − 1 , 1 ) (-1, 1) (−1,1));
- 特征向量被拉伸或压缩的比例因子,称为特征值(如 3、2);
- 特征值的正负号,用于表示变换是否使向量发生方向翻转。
11.2 特征向量与特征值的意义
特征向量与特征值是理解线性变换作用的关键工具。以三维空间为例,若能找到旋转轴对应的向量,其特征值必为 1,该向量在旋转变换中保持方向不变,通过这类特征信息可更清晰地描述线性变换的本质。
11.3 特征向量与特征值的计算
根据定义,特征向量与特征值满足数学关系 A v ⃗ = λ v ⃗ A \vec{v} = \lambda \vec{v} Av =λv ,其中 A A A 为变换矩阵, v ⃗ \vec{v} v 为特征向量, λ \lambda λ 为特征值。为便于计算,将等式变形为矩阵乘法形式:
- 由于 λ v ⃗ \lambda \vec{v} λv 等价于对角矩阵 λ I \lambda I λI 与 v ⃗ \vec{v} v 的乘积( I I I 为单位矩阵),因此 A v ⃗ = ( λ I ) v ⃗ A \vec{v} = (\lambda I) \vec{v} Av =(λI)v ;
- 移项可得 ( A − λ I ) v ⃗ = 0 (A - \lambda I) \vec{v} = 0 (A−λI)v =0,该式表示矩阵 A − λ I A - \lambda I A−λI 对 v ⃗ \vec{v} v 的变换会将其压缩到更低维度;
- 空间压缩对应矩阵行列式为 0,即 det ( A − λ I ) = 0 \det(A - \lambda I) = 0 det(A−λI)=0,求解该方程可得到特征值 λ \lambda λ,再代入 ( A − λ I ) v ⃗ = 0 (A - \lambda I) \vec{v} = 0 (A−λI)v =0 可求得特征向量 v ⃗ \vec{v} v 。

如图所示,随 λ \lambda λ 变化可可视化这一计算过程。例如矩阵 A = [ 2 2 1 3 ] A = \begin{bmatrix} 2 & 2 \\ 1 & 3 \end{bmatrix} A=[2123],其特征值之一为 1。
11.4 特征向量的特殊情况
11.4.1 旋转变换
对平面旋转变换,求解特征值会得到复数解(如 ± i \pm i ±i),不存在实特征向量。特征值为复数的情况,通常对应变换中的旋转操作。
11.4.2 剪切变换
剪切变换中, x x x 轴保持不变,仅存在一个特征值 λ = 1 \lambda = 1 λ=1(满足 ( λ − 1 ) 2 = 0 (\lambda - 1)^2 = 0 (λ−1)2=0),且特征向量数量不足,无法张成整个空间。
11.4.3 伸缩变换
伸缩变换中,仅有一个特征值,但空间内所有向量均为特征向量,变换仅对所有向量进行统一比例的拉伸或压缩。
11.5 特征基
- 定义 :由特征向量构成的基向量集合,称为特征基。对角矩阵的基向量均为特征向量,因其列向量(对应基向量)仅在自身维度上有非零值,符合特征向量"方向不变"的属性。
- 优势 :对角矩阵的多次乘法计算简便,例如 A n A^n An( A A A 为对角矩阵)仅需对对角线元素取 n n n 次幂。
- 应用 :若矩阵可对角化,可通过基变换将其转化为对角矩阵计算:以特征向量为基构建变换矩阵 P P P,则 P − 1 A P P^{-1}AP P−1AP 为对角矩阵(对角元素为特征值),计算后再通过 P P P 转换回原空间。

需注意,并非所有矩阵都能对角化,如剪切变换因特征向量数量不足,无法构建特征基。
12 抽象向量空间
线性代数的关键概念(如行列式、特征向量)不受坐标系限制,是空间的固有属性。
本节将线性代数的应用范围从"箭头向量"扩展到更广泛的抽象对象,构建抽象向量空间的理论框架。
12.1 函数与向量的等价性
函数可视为一种特殊的"向量",因其满足向量的关键运算性质:
- 可加性: ( f + g ) ( x ) = f ( x ) + g ( x ) (f + g)(x) = f(x) + g(x) (f+g)(x)=f(x)+g(x),即两个函数在任意点的函数值之和,对应向量加法;
- 数乘性: ( k f ) ( x ) = k f ( x ) (kf)(x) = kf(x) (kf)(x)=kf(x)( k k k 为标量),即标量与函数值的乘积,对应向量数乘。
基于此,线性代数中矩阵、线性变换等概念可迁移至函数领域。例如,微积分中的导数是典型的函数线性变换,通常称为"线性算子",其本质与向量空间中的线性变换一致。
以多项式函数为例,可通过矩阵描述求导变换。选取幂函数 { 1 , x , x 2 , x 3 , ... } \{1, x, x^2, x^3, \dots\} {1,x,x2,x3,...} 作为基函数(对应向量空间的基向量),则求导操作可表示为矩阵形式,进一步验证"矩阵是变换的数字表达"这一关键观点。

12.2 向量空间的定义与公理
- 定义 :满足向量加法和数乘运算规则的集合,称为向量空间,集合中的元素称为"向量"(如箭头、数组、函数等)。
- 公理:向量加法与数乘需满足以下 8 条公理,以保证运算的合理性:

- 向量加法结合律: r ⃗ + ( v ⃗ + w ⃗ ) = ( r ⃗ + v ⃗ ) + w ⃗ \vec{r} + (\vec{v} + \vec{w}) = (\vec{r} + \vec{v}) + \vec{w} r +(v +w )=(r +v )+w ;
- 向量加法交换律: v ⃗ + w ⃗ = w ⃗ + v ⃗ \vec{v} + \vec{w} = \vec{w} + \vec{v} v +w =w +v ;
- 加法单位元存在:存在零向量 0 ⃗ \vec{0} 0 ,使得 0 ⃗ + v ⃗ = v ⃗ \vec{0} + \vec{v} = \vec{v} 0 +v =v 对所有 v ⃗ \vec{v} v 成立;
- 加法逆元存在:对任意向量 v ⃗ \vec{v} v ,存在 − v ⃗ \vec{-v} −v ,使得 v ⃗ + ( − v ⃗ ) = 0 ⃗ \vec{v} + (-\vec{v}) = \vec{0} v +(−v )=0 ;
- 标量乘法与域乘法相容: a ( b v ⃗ ) = ( a b ) v ⃗ a(b\vec{v}) = (ab)\vec{v} a(bv )=(ab)v ( a , b a, b a,b 为标量);
- 标量乘法单位元存在: 1 ⋅ v ⃗ = v ⃗ 1 \cdot \vec{v} = \vec{v} 1⋅v =v ;
- 标量乘法对向量加法分配律: a ( v ⃗ + w ⃗ ) = a v ⃗ + a w ⃗ a(\vec{v} + \vec{w}) = a\vec{v} + a\vec{w} a(v +w )=av +aw ;
- 标量乘法对域加法分配律: ( a + b ) v ⃗ = a v ⃗ + b v ⃗ (a + b)\vec{v} = a\vec{v} + b\vec{v} (a+b)v =av +bv 。
这些公理是连接理论与应用的桥梁,确保线性代数结论可推广到各类抽象向量空间。
12.3 函数空间示例:多项式空间
以"所有多项式构成的集合"为例,验证其满足抽象向量空间的定义:
- 向量加法 :设多项式 f ( x ) = a n x n + ⋯ + a 1 x + a 0 f(x) = a_nx^n + \dots + a_1x + a_0 f(x)=anxn+⋯+a1x+a0、 g ( x ) = b n x n + ⋯ + b 1 x + b 0 g(x) = b_nx^n + \dots + b_1x + b_0 g(x)=bnxn+⋯+b1x+b0,则 f ( x ) + g ( x ) = ( a n + b n ) x n + ⋯ + ( a 1 + b 1 ) x + ( a 0 + b 0 ) f(x) + g(x) = (a_n + b_n)x^n + \dots + (a_1 + b_1)x + (a_0 + b_0) f(x)+g(x)=(an+bn)xn+⋯+(a1+b1)x+(a0+b0),符合可加性;
- 向量数乘 :对标量 c c c, c ⋅ f ( x ) = c a n x n + ⋯ + c a 1 x + c a 0 c \cdot f(x) = ca_nx^n + \dots + ca_1x + ca_0 c⋅f(x)=canxn+⋯+ca1x+ca0,符合数乘性;
- 基与维度 : n n n 次多项式空间的基为 { 1 , x , x 2 , ... , x n } \{1, x, x^2, \dots, x^n\} {1,x,x2,...,xn},维度为 n + 1 n + 1 n+1(基向量的个数)。
12.4 线性算子:抽象空间的线性变换
在抽象向量空间中,"线性变换"称为线性算子 ,需满足与线性变换相同的条件:对任意向量 u ⃗ , v ⃗ \vec{u}, \vec{v} u ,v 和标量 k k k,有 T ( u ⃗ + v ⃗ ) = T ( u ⃗ ) + T ( v ⃗ ) T(\vec{u} + \vec{v}) = T(\vec{u}) + T(\vec{v}) T(u +v )=T(u )+T(v ) 且 T ( k u ⃗ ) = k T ( u ⃗ ) T(k\vec{u}) = kT(\vec{u}) T(ku )=kT(u )。
12.4.1 导数算子示例
设导数算子 D : D ( f ( x ) ) = f ′ ( x ) D: D(f(x)) = f'(x) D:D(f(x))=f′(x)(作用于多项式空间),验证其线性性:
- 可加性: D ( f ( x ) + g ( x ) ) = f ′ ( x ) + g ′ ( x ) = D ( f ( x ) ) + D ( g ( x ) ) D(f(x) + g(x)) = f'(x) + g'(x) = D(f(x)) + D(g(x)) D(f(x)+g(x))=f′(x)+g′(x)=D(f(x))+D(g(x));
- 数乘性: D ( k f ( x ) ) = k f ′ ( x ) = k D ( f ( x ) ) D(kf(x)) = kf'(x) = kD(f(x)) D(kf(x))=kf′(x)=kD(f(x))。
以 { 1 , x , x 2 } \{1, x, x^2\} {1,x,x2} 为基,多项式 f ( x ) = a + b x + c x 2 f(x) = a + bx + cx^2 f(x)=a+bx+cx2 的坐标为 [ a b c ] \begin{bmatrix} a \\ b \\ c \end{bmatrix} abc ,其导数 f ′ ( x ) = b + 2 c x f'(x) = b + 2cx f′(x)=b+2cx 的坐标为 [ b 2 c 0 ] \begin{bmatrix} b \\ 2c \\ 0 \end{bmatrix} b2c0 ,因此导数算子对应的矩阵为:
D = [ 0 1 0 0 0 2 0 0 0 ] D = \begin{bmatrix} 0 & 1 & 0 \\ 0 & 0 & 2 \\ 0 & 0 & 0 \end{bmatrix} D= 000100020
12.5 概念的统一与扩展
抽象向量空间中,线性代数关键概念可对应扩展,不同领域术语本质一致,具体如下表所示:
线性代数术语 | 抽象向量空间术语 | 函数空间示例 |
---|---|---|
线性变换 | 线性算子 | 导数 D ( f ( x ) ) = f ′ ( x ) D(f(x)) = f'(x) D(f(x))=f′(x) |
点积 | 内积 | 积分内积 ⟨ f , g ⟩ = ∫ a b f ( x ) g ( x ) d x \langle f, g \rangle = \int_a^b f(x)g(x)dx ⟨f,g⟩=∫abf(x)g(x)dx |
特征向量 | 特征函数 | 微分方程 D ( f ( x ) ) = λ f ( x ) D(f(x)) = \lambda f(x) D(f(x))=λf(x) 的解 f ( x ) = e λ x f(x) = e^{\lambda x} f(x)=eλx |
只要对象满足加法与数乘规则,线性代数的所有结论均可适用,体现了数学规律的普适性。
12.6 总结
- 向量的本质:向量并非局限于箭头或数组,而是满足加法与数乘公理的抽象对象,类似"3"是对"三个事物"的抽象,向量空间是对"具有线性运算属性的集合"的抽象;
- 抽象性与普适性 :抽象性是实现普适性的代价(abstractness is the price of generality)。通过公理定义向量空间,可将线性代数应用于函数、多项式等各类领域;
- 线性代数的关键框架 :
- 向量:满足线性运算的抽象对象;
- 矩阵:线性变换的数字表达,列向量对应基向量的变换结果;
- 行列式:空间体积的缩放比例,决定矩阵可逆性;
- 特征向量/值:变换中方向不变的向量与缩放比例,揭示变换本质;
- 抽象向量空间:扩展线性代数的应用范围,实现概念统一。
学习线性代数的关键在于建立"几何直观"而非记忆公式,通过理解概念间的关联,可在机器学习、机器人控制等工程领域灵活应用,突破单纯的计算层面。
学习的过程只能来源于解决问题,来源于带有思考的不断重复 ,但如果你具备了正确的直观 ,你会再以后的学习中更加高效。
via:
-
【直观详解】线性代数的本质 | Go Further | Stay Hungry, Stay Foolish
https://charlesliuyx.github.io/2017/10/06/【直观详解】线性代数的本质/ -
Determinant - Note201.pdf - 21 February, 2019
https://math.ntnu.edu.tw/~li/Linear/Note201.pdf