注:本文为 "线性代数 | 要义 / 本质" 相关重排增版。
如有内容异常,请看原文。
线性代数的本质(篇 1)
一、向量与空间
1. 向量
向量是空间中运动关系的数学表示,正负号用于标识运动方向。例如,二维向量 1 − 2 \begin{bmatrix} 1 \\ -2 \end{bmatrix} 1−2 表示在二维坐标系内,从当前位置沿 x x x 轴正方向移动 1 1 1 个单位,再沿 y y y 轴负方向移动 2 2 2 个单位。该定义可自然推广至 n n n 维空间。
1.1 向量加法:描述两次运动的叠加
向量加法的几何意义是两次运动的叠加,即先按第一个向量完成运动,再按第二个向量完成运动,最终位置为各坐标轴位移的叠加。
示例: 1 3 + 2 4 = 1 + 2 3 + 4 = 3 7 \begin{bmatrix} 1 \\ 3 \end{bmatrix} + \begin{bmatrix} 2 \\ 4 \end{bmatrix} = \begin{bmatrix} 1+2 \\ 3+4 \end{bmatrix} = \begin{bmatrix} 3 \\ 7 \end{bmatrix} 13+24=1+23+4=37。
1.2 向量数乘:描述运动幅度的缩放
向量数乘的几何意义是对原向量的运动幅度进行缩放,标量的绝对值表示缩放倍数,符号表示方向是否反转。
示例: 3 × 1 2 = 3 × 1 3 × 2 = 3 6 3 \times \begin{bmatrix} 1 \\ 2 \end{bmatrix} = \begin{bmatrix} 3 \times 1 \\ 3 \times 2 \end{bmatrix} = \begin{bmatrix} 3 \\ 6 \end{bmatrix} 3×12=3×13×2=36,表示将原向量幅度扩大为原来的 3 3 3 倍。
在数学和物理学中,向量可表示为行向量或列向量,二者几何意义等价,但形式与矩阵运算用途不同:
- 行向量:用于表示点的坐标或方向,形式为 a b \begin{bmatrix} a & b \end{bmatrix} ab;
- 列向量:用于矩阵运算,形式为 a b \begin{bmatrix} a \\ b \end{bmatrix} ab。
在二维坐标系中,行向量 1 − 2 \begin{bmatrix} 1 & -2 \end{bmatrix} 1−2 与列向量 1 − 2 \begin{bmatrix} 1 \\ -2 \end{bmatrix} 1−2 均表示从原点 ( 0 , 0 ) (0, 0) (0,0) 出发,先沿 x x x 轴正方向移动 1 1 1 个单位,再沿 y y y 轴负方向移动 2 2 2 个单位,最终位置为 ( 1 , − 2 ) (1, -2) (1,−2)。
2. 线性组合
向量数乘的代数和称为向量的线性组合,任意向量均可表示为一组基向量经数乘后叠加的结果。
示例:
- 三维空间中任意向量 v \mathbf{v} v,可表示为基向量 i \mathbf{i} i、 j \mathbf{j} j、 k \mathbf{k} k 分别乘以标量 x x x、 y y y、 z z z 后的和,即 v = x i + y j + z k \mathbf{v} = x\mathbf{i} + y\mathbf{j} + z\mathbf{k} v=xi+yj+zk;

- 二维向量 − 2 1 \begin{bmatrix} -2 \\ 1 \end{bmatrix} −21 可表示为标准基向量 1 0 \begin{bmatrix} 1 \\ 0 \end{bmatrix} 10 与 0 1 \begin{bmatrix} 0 \\ 1 \end{bmatrix} 01 的线性组合,即 − 2 1 = − 2 × 1 0 + 1 × 0 1 \begin{bmatrix} -2 \\ 1 \end{bmatrix} = -2 \times \begin{bmatrix} 1 \\ 0 \end{bmatrix} + 1 \times \begin{bmatrix} 0 \\ 1 \end{bmatrix} −21=−2×10+1×01。
线性组合可推广为 a v + b w + c u a\mathbf{v} + b\mathbf{w} + c\mathbf{u} av+bw+cu( a a a、 b b b、 c c c 为标量),计算过程为对向量 v \mathbf{v} v、 w \mathbf{w} w、 u \mathbf{u} u 分别按对应标量缩放,再将结果相加。

u ⃗ \vec{u} u 、 v ⃗ \vec{v} v 、 w ⃗ \vec{w} w 箭头符号在手写中常见;
u \mathbf{u} u、 v \mathbf{v} v、 w \mathbf{w} w粗体符号在印刷品中更常见。
基向量是建立"数组"与"向量"对应关系的关键。当用数组表示向量时,其数值依赖于所选取的基向量。
3. 张成空间
所有可表示为给定向量线性组合的向量集合,称为该组向量张成(span)的空间。
以二维空间为例,设向量 x \mathbf{x} x、 y \mathbf{y} y,若标量 m m m、 n n n 可取任意实数,则线性组合 m x + n y m\mathbf{x} + n\mathbf{y} mx+ny 的张成空间有三种情况:
- 若 x \mathbf{x} x 与 y \mathbf{y} y 不共线,则张成二维平面空间;
- 若 x \mathbf{x} x 与 y \mathbf{y} y 共线,则张成一维直线空间;
- 若 x \mathbf{x} x 与 y \mathbf{y} y 均为零向量,则张成零维点空间。
4. 线性相关与线性无关
-
线性相关 (Linearly Dependent):存在非全零标量 a a a、 b b b,使得 u = a v + b w \mathbf{u} = a\mathbf{v} + b\mathbf{w} u=av+bw。
设向量组 { α 1 , α 2 , ... , α k } \{\mathbf{\alpha}_1, \mathbf{\alpha}_2, \dots, \mathbf{\alpha}_k\} {α1,α2,...,αk},若存在至少一个向量可由其余向量线性表示(移除该向量后张成空间维度不变),则称该向量组线性相关。

-
线性无关 (Linearly Independent):仅当 a = b = 0 a = b = 0 a=b=0 时, u = a v + b w \mathbf{u} = a\mathbf{v} + b\mathbf{w} u=av+bw 成立。
若向量组中任意向量均不可由其余向量线性表示(每个向量均为张成空间增加新维度),则称该向量组线性无关。

5. 基与维数
在实向量空间 V \mathcal{V} V 中,若集合 B = { v 1 , v 2 , ... , v n } \mathcal{B} = \{ \mathbf{v}_1, \mathbf{v}_2, \dots, \mathbf{v}_n \} B={v1,v2,...,vn} 同时满足线性无关 与其线性组合能张成整个 V \mathcal{V} V ,则称 B \mathcal{B} B 为 V \mathcal{V} V 的一组基。
5.1 基的充要条件
向量组 B = { v 1 , v 2 , ... , v n } \mathcal{B} = \{ \mathbf{v}_1, \mathbf{v}_2, \dots, \mathbf{v}_n \} B={v1,v2,...,vn} 成为 V \mathcal{V} V 的基,需同时满足以下两点:
- 线性无关性 :对任意标量 c 1 , c 2 , ... , c n ∈ R c_1, c_2, \dots, c_n \in \mathbb{R} c1,c2,...,cn∈R,若 c 1 v 1 + c 2 v 2 + ⋯ + c n v n = 0 c_1\mathbf{v}_1 + c_2\mathbf{v}_2 + \dots + c_n\mathbf{v}_n = \mathbf{0} c1v1+c2v2+⋯+cnvn=0(零向量),则必推出 c 1 = c 2 = ⋯ = c n = 0 c_1 = c_2 = \dots = c_n = 0 c1=c2=⋯=cn=0;
- 张成性 :对任意 u ∈ V \mathbf{u} \in \mathcal{V} u∈V,存在唯一一组标量 c 1 , c 2 , ... , c n ∈ R c_1, c_2, \dots, c_n \in \mathbb{R} c1,c2,...,cn∈R,使得 u = c 1 v 1 + c 2 v 2 + ⋯ + c n v n \mathbf{u} = c_1\mathbf{v}_1 + c_2\mathbf{v}_2 + \dots + c_n\mathbf{v}_n u=c1v1+c2v2+⋯+cnvn(即 u \mathbf{u} u 可由 B \mathcal{B} B 线性表示)。
5.2 基的主要性质
- 不唯一性 :同一向量空间可存在多组不同基。
例: R 2 \mathbb{R}^2 R2 中, { ( 1 , 0 ) , ( 0 , 1 ) } \{(1,0),(0,1)\} {(1,0),(0,1)}(标准基)与 { ( 1 , 1 ) , ( 1 , − 1 ) } \{(1,1),(1,-1)\} {(1,1),(1,−1)}(非标准基)均为基; - 基向量个数的唯一性(维数定义) :任意基的向量个数固定不变,该个数称为 V \mathcal{V} V 的维数 ,记为 dim ( V ) = n \dim(\mathcal{V}) = n dim(V)=n。
例: R 2 \mathbb{R}^2 R2 维数为 2 2 2,任意基含 2 2 2 个向量; R 3 \mathbb{R}^3 R3 维数为 3 3 3,任意基含 3 3 3 个向量。
5.3 示例(1、2、3 维空间)
(1)1 维空间 R 1 \mathbb{R}^1 R1(数轴)
- 基的形式:单个非零向量(零向量因线性相关无法作为基);
- 示例:取基 { 5 } \{5\} {5},对任意实数 x ∈ R 1 x \in \mathbb{R}^1 x∈R1,可表示为 x = x 5 × 5 x = \frac{x}{5} \times 5 x=5x×5,满足张成性与线性无关性。
(2)2 维空间 R 2 \mathbb{R}^2 R2(平面)
以两组基为例验证:
- 基 { ( 1 , 0 ) , ( 0 , 1 ) } \{(1,0),(0,1)\} {(1,0),(0,1)}:
线性无关性: c 1 ( 1 , 0 ) + c 2 ( 0 , 1 ) = ( 0 , 0 ) ⟹ c 1 = c 2 = 0 c_1(1,0) + c_2(0,1) = (0,0) \implies c_1 = c_2 = 0 c1(1,0)+c2(0,1)=(0,0)⟹c1=c2=0;
张成性:任意 ( x , y ) = x ( 1 , 0 ) + y ( 0 , 1 ) (x,y) = x(1,0) + y(0,1) (x,y)=x(1,0)+y(0,1),可张成 R 2 \mathbb{R}^2 R2。 - 基 { ( 1 , 1 ) , ( 1 , − 1 ) } \{(1,1),(1,-1)\} {(1,1),(1,−1)}:
线性无关性: c 1 ( 1 , 1 ) + c 2 ( 1 , − 1 ) = ( 0 , 0 ) ⟹ { c 1 + c 2 = 0 c 1 − c 2 = 0 ⟹ c 1 = c 2 = 0 c_1(1,1) + c_2(1,-1) = (0,0) \implies \begin{cases} c_1 + c_2 = 0 \\ c_1 - c_2 = 0 \end{cases} \implies c_1 = c_2 = 0 c1(1,1)+c2(1,−1)=(0,0)⟹{c1+c2=0c1−c2=0⟹c1=c2=0;
张成性:任意 ( x , y ) = x + y 2 ( 1 , 1 ) + x − y 2 ( 1 , − 1 ) (x,y) = \frac{x+y}{2}(1,1) + \frac{x-y}{2}(1,-1) (x,y)=2x+y(1,1)+2x−y(1,−1),总有解,可张成 R 2 \mathbb{R}^2 R2。
(3)3 维空间 R 3 \mathbb{R}^3 R3(立体空间)
标准基为 B 3 = { 1 0 0 , 0 1 0 , 0 0 1 } \mathcal{B}_3 = \left\{ \begin{bmatrix} 1 \\ 0 \\ 0 \end{bmatrix}, \begin{bmatrix} 0 \\ 1 \\ 0 \end{bmatrix}, \begin{bmatrix} 0 \\ 0 \\ 1 \end{bmatrix} \right\} B3=⎩ ⎨ ⎧ 100 , 010 , 001 ⎭ ⎬ ⎫:
- 线性无关性: c 1 1 0 0 + c 2 0 1 0 + c 3 0 0 1 = 0 0 0 ⟹ c 1 = c 2 = c 3 = 0 c_1\begin{bmatrix}1\\0\\0\end{bmatrix} + c_2\begin{bmatrix}0\\1\\0\end{bmatrix} + c_3\begin{bmatrix}0\\0\\1\end{bmatrix} = \begin{bmatrix}0\\0\\0\end{bmatrix} \implies c_1 = c_2 = c_3 = 0 c1 100 +c2 010 +c3 001 = 000 ⟹c1=c2=c3=0;
- 张成性:任意 u = x y z = x 1 0 0 + y 0 1 0 + z 0 0 1 \mathbf{u} = \begin{bmatrix}x\\y\\z\end{bmatrix} = x\begin{bmatrix}1\\0\\0\end{bmatrix} + y\begin{bmatrix}0\\1\\0\end{bmatrix} + z\begin{bmatrix}0\\0\\1\end{bmatrix} u= xyz =x 100 +y 010 +z 001 ,可张成 R 3 \mathbb{R}^3 R3。
5.4 基的个数与空间维数的对应关系
| 向量空间维数 | 基的向量个数 | 示例(实空间 R n \mathbb{R}^n Rn) |
|---|---|---|
| 1 维 | 1 个 | R 1 \mathbb{R}^1 R1 的基: { 3 } \{3\} {3}(任意非零实数) |
| 2 维 | 2 个 | R 2 \mathbb{R}^2 R2 的基: { ( 1 , 0 ) , ( 0 , 1 ) } \{(1,0),(0,1)\} {(1,0),(0,1)} |
| 3 维 | 3 个 | R 3 \mathbb{R}^3 R3 的基: { ( 1 , 0 , 0 ) , ( 0 , 1 , 0 ) , ( 0 , 0 , 1 ) } \{(1,0,0),(0,1,0),(0,0,1)\} {(1,0,0),(0,1,0),(0,0,1)} |
5.5 重要结论
- 基是"空间的最小生成组":既无冗余向量(线性无关),又能完整覆盖空间(张成性);
- 空间唯一但基不唯一:不同基如同描述同一空间的"不同坐标系"(如 R 2 \mathbb{R}^2 R2 的直角坐标系与斜坐标系);
- 维数是空间的固有属性:由基向量个数唯一确定,直接刻画空间的"维度大小"(如 1 维对应直线、2 维对应平面)。
二、矩阵与线性变换
1. 线性变换的定义
变换本质上是函数(function)的一种表述,在线性代数中,研究对象主要是输入与输出均为向量的变换。

从几何视角看,这类变换可理解为:每个输入向量被映射至其对应输出向量的空间位置,且所有向量均遵循同一映射规则。与函数一致,变换满足单值映射性质------任一输入向量仅对应唯一输出向量。

若变换 L : V → W L: V \to W L:V→W 满足以下两条性质,则称为线性变换:
- 可加性:对任意 u , v ∈ V \mathbf{u}, \mathbf{v} \in V u,v∈V,有 L ( u + v ) = L ( u ) + L ( v ) L(\mathbf{u} + \mathbf{v}) = L(\mathbf{u}) + L(\mathbf{v}) L(u+v)=L(u)+L(v);
- 齐次性:对任意 v ∈ V \mathbf{v} \in V v∈V 及标量 k k k,有 L ( k v ) = k L ( v ) L(k\mathbf{v}) = kL(\mathbf{v}) L(kv)=kL(v)。
线性变换的几何特征为:变换后直线仍为直线,且原点位置保持不变。
2. 矩阵向量乘法与线性变换的对应
以二维空间为例,标准基向量 i = 1 0 \mathbf{i} = \begin{bmatrix} 1 \\ 0 \end{bmatrix} i=10、 j = 0 1 \mathbf{j} = \begin{bmatrix} 0 \\ 1 \end{bmatrix} j=01,任意向量 v = x y \mathbf{v} = \begin{bmatrix} x \\ y \end{bmatrix} v=xy 可表示为 v = x i + y j \mathbf{v} = x\mathbf{i} + y\mathbf{j} v=xi+yj。
设线性变换 L L L 将 i \mathbf{i} i 映射为 a c \begin{bmatrix} a \\ c \end{bmatrix} ac,将 j \mathbf{j} j 映射为 b d \begin{bmatrix} b \\ d \end{bmatrix} bd,根据线性变换的性质:
L ( v ) = L ( x i + y j ) = x L ( i ) + y L ( j ) = x a c + y b d = a x + b y c x + d y L(\mathbf{v}) = L(x\mathbf{i} + y\mathbf{j}) = xL(\mathbf{i}) + yL(\mathbf{j}) = x\begin{bmatrix} a \\ c \end{bmatrix} + y\begin{bmatrix} b \\ d \end{bmatrix} = \begin{bmatrix} ax + by \\ cx + dy \end{bmatrix} L(v)=L(xi+yj)=xL(i)+yL(j)=xac+ybd=ax+bycx+dy
将变换后的基向量作为列向量构成矩阵 a b c d \begin{bmatrix} a & b \\ c & d \end{bmatrix} acbd,则上述运算可表示为矩阵向量乘法:
a b c d \] \[ x y \] = \[ a x + b y c x + d y \] \\begin{bmatrix} a \& b \\\\ c \& d \\end{bmatrix} \\begin{bmatrix} x \\\\ y \\end{bmatrix} = \\begin{bmatrix} ax + by \\\\ cx + dy \\end{bmatrix} \[acbd\]\[xy\]=\[ax+bycx+dy
由此可知:
- 一个 2 × 2 2 \times 2 2×2 矩阵唯一确定一个二维线性变换,矩阵的列向量为变换后的标准基向量;
- 矩阵向量乘法本质是"基向量缩放后叠加",即计算线性变换作用于向量的结果。
以二维向量 v = − 1 2 \mathbf{v} = \begin{bmatrix} -1 \\ 2 \end{bmatrix} v=−12 为例,其本质是 − 1 × i + 2 × j -1 \times \mathbf{i} + 2 \times \mathbf{j} −1×i+2×j( i \mathbf{i} i、 j \mathbf{j} j 为二维标准基)。线性变换满足"网格平行且等距"的性质,因此变换后向量仍保持原线性组合关系,即变换后的向量为 − 1 × L ( i ) + 2 × L ( j ) -1 \times L(\mathbf{i}) + 2 \times L(\mathbf{j}) −1×L(i)+2×L(j)。

若变换后基向量 i \mathbf{i} i 为 1 − 2 \begin{bmatrix} 1 \\ -2 \end{bmatrix} 1−2、 j \mathbf{j} j 为 3 0 \begin{bmatrix} 3 \\ 0 \end{bmatrix} 30,则变换后的向量 v \mathbf{v} v 为:
− 1 ⋅ 1 − 2 + 2 ⋅ 3 0 = − 1 + 6 2 + 0 = 5 2 -1 \cdot \begin{bmatrix} 1 \\ -2 \end{bmatrix} + 2 \cdot \begin{bmatrix} 3 \\ 0 \end{bmatrix} = \begin{bmatrix} -1 + 6 \\ 2 + 0 \end{bmatrix} = \begin{bmatrix} 5 \\ 2 \end{bmatrix} −1⋅1−2+2⋅30=−1+62+0=52

由此可知,只要确定变换后基向量 i \mathbf{i} i 与 j \mathbf{j} j 的形式,即可推导任意二维向量经过该变换后的结果。对于任意二维向量 x y \begin{bmatrix} x \\ y \end{bmatrix} xy,其变换过程为:
x y \] → x L ( i ) + y L ( j ) = x \[ 1 − 2 \] + y \[ 3 0 \] = \[ x + 3 y − 2 x \] \\begin{bmatrix} x \\\\ y \\end{bmatrix} \\to xL(\\mathbf{i}) + yL(\\mathbf{j}) = x\\begin{bmatrix} 1 \\\\ -2 \\end{bmatrix} + y\\begin{bmatrix} 3 \\\\ 0 \\end{bmatrix} = \\begin{bmatrix} x + 3y \\\\ -2x \\end{bmatrix} \[xy\]→xL(i)+yL(j)=x\[1−2\]+y\[30\]=\[x+3y−2x
2.1 常见线性变换示例
-
旋转变换 :
将空间逆时针旋转 9 0 ∘ 90^\circ 90∘,标准基向量 i \mathbf{i} i 映射为 0 1 \begin{bmatrix} 0 \\ 1 \end{bmatrix} 01, j \mathbf{j} j 映射为 − 1 0 \begin{bmatrix} -1 \\ 0 \end{bmatrix} −10,对应的变换矩阵为 0 − 1 1 0 \begin{bmatrix} 0 & -1 \\ 1 & 0 \end{bmatrix} 01−10;

任意向量经过逆时针 9 0 ∘ 90^\circ 90∘ 旋转后的结果,可通过该向量与旋转矩阵相乘得到。
-
剪切变换 :
保持 i \mathbf{i} i 不变(映射为 1 0 \begin{bmatrix} 1 \\ 0 \end{bmatrix} 10),将 j \mathbf{j} j 映射为 1 1 \begin{bmatrix} 1 \\ 1 \end{bmatrix} 11,对应的变换矩阵为 1 1 0 1 \begin{bmatrix} 1 & 1 \\ 0 & 1 \end{bmatrix} 1011;

任意向量经过该剪切变换后的结果,可通过该向量与剪切矩阵相乘得到。
3. 矩阵乘法与线性变换的复合
矩阵乘法关联的是线性变换的复合,即两个线性变换相继作用的结果,这种复合可通过矩阵乘积表示,并需遵循特定规则与性质。
3.1 复合变换的基本概念
设线性变换 L 1 L_1 L1 对应矩阵 A A A,线性变换 L 2 L_2 L2 对应矩阵 B B B。如果先执行 L 1 L_1 L1、再执行 L 2 L_2 L2,则该复合变换记为 L = L 2 ∘ L 1 L = L_2 \circ L_1 L=L2∘L1。
- 复合变换的矩阵表示:该复合变换对应的矩阵为 B × A B \times A B×A,矩阵乘法的顺序与线性变换的执行顺序反向(即"从右向左");
- 几何意义:矩阵乘法本质是"线性变换的相继作用"。例如"先旋转变换、后剪切变换":旋转变换(对应 L 1 L_1 L1)的矩阵 A = 0 − 1 1 0 A = \begin{bmatrix} 0 & -1 \\ 1 & 0 \end{bmatrix} A=01−10(向量逆时针旋转 9 0 ∘ 90^\circ 90∘),剪切变换(对应 L 2 L_2 L2)的矩阵 B = 1 1 0 1 B = \begin{bmatrix} 1 & 1 \\ 0 & 1 \end{bmatrix} B=1011,则复合变换的矩阵为 B × A = 1 − 1 1 0 B \times A = \begin{bmatrix} 1 & -1 \\ 1 & 0 \end{bmatrix} B×A=11−10。
3.2 复合变换的关键性质
3.2.1 复合变换的矩阵计算推导
对任意向量 v \mathbf{v} v,复合变换的作用过程可通过矩阵运算推导: L ( v ) = L 2 ( L 1 ( v ) ) = B ( A v ) = ( B A ) v L(\mathbf{v}) = L_2(L_1(\mathbf{v})) = B(A\mathbf{v}) = (BA)\mathbf{v} L(v)=L2(L1(v))=B(Av)=(BA)v,直接印证"复合变换矩阵为对应线性变换矩阵乘积"的规则。
3.2.2 矩阵乘法的交换律
矩阵乘法不满足普遍交换律(通常 A B ≠ B A AB \neq BA AB=BA),需从以下两方面理解:
-
"通常 A B ≠ B A AB \neq BA AB=BA"的原因:
- 线性变换的顺序依赖性:变换效果与执行顺序强相关(如先剪切再旋转,与先旋转再剪切,结果不同);
- 代数计算规则限制:矩阵乘法遵循"前矩阵行 × 后矩阵列",交换顺序后参与运算的行和列对应关系改变。例如 A = 1 2 3 4 A = \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix} A=1324, B = 5 6 7 8 B = \begin{bmatrix} 5 & 6 \\ 7 & 8 \end{bmatrix} B=5768,计算得 A B = 19 22 43 50 AB = \begin{bmatrix} 19 & 22 \\ 43 & 50 \end{bmatrix} AB=19432250, B A = 23 34 31 46 BA = \begin{bmatrix} 23 & 34 \\ 31 & 46 \end{bmatrix} BA=23313446,二者元素不同。
-
满足 A B = B A AB = BA AB=BA 的特殊场景:
- 场景 1:其中一个矩阵为单位矩阵 I \mathbf{I} I(如 I = 1 0 0 1 \mathbf{I} = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} I=1001),对任意矩阵 A A A 有 A I = I A = A AI = IA = A AI=IA=A;
- 场景 2:其中一个矩阵为零矩阵 O \mathbf{O} O,对任意矩阵 A A A 有 A O = O A = O AO = OA = O AO=OA=O;
- 场景 3:两个矩阵均为对角矩阵(如 A = a 0 0 b A = \begin{bmatrix} a & 0 \\ 0 & b \end{bmatrix} A=a00b, B = c 0 0 d B = \begin{bmatrix} c & 0 \\ 0 & d \end{bmatrix} B=c00d),则 A B = B A = a c 0 0 b d AB = BA = \begin{bmatrix} ac & 0 \\ 0 & bd \end{bmatrix} AB=BA=ac00bd;
- 场景 4:矩阵与自身的幂次相乘(如 A 2 × A 3 = A 3 × A 2 = A 5 A^2 \times A^3 = A^3 \times A^2 = A^5 A2×A3=A3×A2=A5)。
3.3 矩阵乘法的计算逻辑
设矩阵 A = a b c d A = \begin{bmatrix} a & b \\ c & d \end{bmatrix} A=acbd,矩阵 B = e f g h B = \begin{bmatrix} e & f \\ g & h \end{bmatrix} B=egfh,则 B A BA BA 的列向量为" A A A 的列向量经 B B B 变换后的结果":
- B A BA BA 的第一列: B × a c = a e + c g a f + c h B \times \begin{bmatrix} a \\ c \end{bmatrix} = \begin{bmatrix} ae + cg \\ af + ch \end{bmatrix} B×ac=ae+cgaf+ch;
- B A BA BA 的第二列: B × b d = b e + d g b f + d h B \times \begin{bmatrix} b \\ d \end{bmatrix} = \begin{bmatrix} be + dg \\ bf + dh \end{bmatrix} B×bd=be+dgbf+dh;
- 最终 B A = a e + c g b e + d g a f + c h b f + d h BA = \begin{bmatrix} ae + cg & be + dg \\ af + ch & bf + dh \end{bmatrix} BA=ae+cgaf+chbe+dgbf+dh。
4. 三维空间的线性变换
三维线性变换的逻辑与二维一致,关键性质包括:
-
一个 3 × 3 3 \times 3 3×3 矩阵唯一确定一个三维线性变换,矩阵的列向量为变换后的标准基向量( i = 1 0 0 \mathbf{i} = \begin{bmatrix} 1 \\ 0 \\ 0 \end{bmatrix} i= 100 、 j = 0 1 0 \mathbf{j} = \begin{bmatrix} 0 \\ 1 \\ 0 \end{bmatrix} j= 010 、 k = 0 0 1 \mathbf{k} = \begin{bmatrix} 0 \\ 0 \\ 1 \end{bmatrix} k= 001 );
-
矩阵向量乘法:对 3 × 3 3 \times 3 3×3 矩阵 A A A 与三维向量 v = x y z \mathbf{v} = \begin{bmatrix} x \\ y \\ z \end{bmatrix} v= xyz , A v A\mathbf{v} Av 为 A A A 的列向量分别乘以 x x x、 y y y、 z z z 后的和;

-
矩阵乘法:两个 3 × 3 3 \times 3 3×3 矩阵 A A A、 B B B 的乘积 B A BA BA,其列向量为" A A A 的列向量经 B B B 变换后的结果";

5. 行列式的定义与几何意义
设线性变换对应的矩阵为 A A A,将空间中任意区域(如二维平面的平行四边形、三维空间的平行六面体)变换后,"变换后区域的面积(或体积)"与"原区域的面积(或体积)"的比值,称为矩阵 A A A 的行列式,记作 det ( A ) \det(A) det(A)。


5.1 行列式的符号与数值意义
行列式的意义是描述线性变换的"有向缩放因子 "或"有向体积变化率",具体分三种情况:
(1)当 det ( A ) = 0 \det(A) = 0 det(A)=0 时
- 几何意义:线性变换为降维变换(不可逆变换、奇异变换)。二维空间中变换后图形压缩为直线或点,三维空间中压缩为平面、直线或点(变换后像空间维度小于原空间);
- 代数意义:矩阵 A A A 的列(或行)向量组线性相关,秩小于其维数,不可逆,齐次线性方程组 A x = 0 A\mathbf{x} = \mathbf{0} Ax=0 有非零解。
(2)当 det ( A ) > 0 \det(A) > 0 det(A)>0 时
- 几何意义:线性变换后空间定向不变(保持定向),行列式数值为变换的"缩放比例"(二维为单位面积缩放倍数,三维为单位体积缩放倍数);
- 代数意义:矩阵 A A A 的列(或行)向量组线性无关,秩等于其维数,可逆,齐次线性方程组 A x = 0 A\mathbf{x} = \mathbf{0} Ax=0 只有零解。
(3)当 det ( A ) < 0 \det(A) < 0 det(A)<0 时
- 几何意义:线性变换后空间定向翻转(改变定向),行列式的绝对值为变换的"缩放比例";
- 代数意义:矩阵 A A A 的列(或行)向量组线性无关,秩等于其维数,可逆,齐次线性方程组 A x = 0 A\mathbf{x} = \mathbf{0} Ax=0 只有零解。
5.2 行列式符号的判断方法
-
二维空间 :以标准基 e 1 = ( 1 0 ) \mathbf{e}_1 = \begin{pmatrix} 1 \\ 0 \end{pmatrix} e1=(10)、 e 2 = ( 0 1 ) \mathbf{e}_2 = \begin{pmatrix} 0 \\ 1 \end{pmatrix} e2=(01) 为参考,若变换后的 v 1 = A e 1 \mathbf{v}_1 = A\mathbf{e}_1 v1=Ae1 到 v 2 = A e 2 \mathbf{v}_2 = A\mathbf{e}_2 v2=Ae2 的最小旋转方向与 e 1 \mathbf{e}_1 e1 到 e 2 \mathbf{e}_2 e2 一致(如均为逆时针),则 det ( A ) > 0 \det(A) > 0 det(A)>0,否则 det ( A ) < 0 \det(A) < 0 det(A)<0;

-
三维空间 :以标准基 e 1 = ( 1 0 0 ) \mathbf{e}_1 = \begin{pmatrix} 1 \\ 0 \\ 0 \end{pmatrix} e1= 100 、 e 2 = ( 0 1 0 ) \mathbf{e}_2 = \begin{pmatrix} 0 \\ 1 \\ 0 \end{pmatrix} e2= 010 、 e 3 = ( 0 0 1 ) \mathbf{e}_3 = \begin{pmatrix} 0 \\ 0 \\ 1 \end{pmatrix} e3= 001 为参考,用"右手定则":食指指向 v 1 = A e 1 \mathbf{v}_1 = A\mathbf{e}_1 v1=Ae1、中指指向 v 2 = A e 2 \mathbf{v}_2 = A\mathbf{e}_2 v2=Ae2,若拇指指向与 v 3 = A e 3 \mathbf{v}_3 = A\mathbf{e}_3 v3=Ae3 一致,则 det ( A ) > 0 \det(A) > 0 det(A)>0,否则 det ( A ) < 0 \det(A) < 0 det(A)<0;

6. 基变换
在标准坐标系中,向量的坐标可理解为基向量 i ⃗ \vec{i} i 、 j ⃗ \vec{j} j 缩放的倍数。例如,向量 3 2 \begin{bmatrix} 3 \\ 2 \end{bmatrix} 32 表示将 i ⃗ \vec{i} i 缩放 3 3 3 倍、 j ⃗ \vec{j} j 缩放 2 2 2 倍后相加的结果。
基向量 i ⃗ \vec{i} i 、 j ⃗ \vec{j} j 是标准坐标系的隐含假设,向量与坐标之间的对应关系依赖于所选定的基,这种对应关系称为坐标系。

基变换描述向量在不同坐标系下的表示转换,关键逻辑如下:
6.1 基变换矩阵的定义
设标准基为 { e 1 , e 2 , ... , e n } \{\mathbf{e}_1, \mathbf{e}_2, \dots, \mathbf{e}_n\} {e1,e2,...,en},新基为 { b 1 , b 2 , ... , b n } \{\mathbf{b}_1, \mathbf{b}_2, \dots, \mathbf{b}n\} {b1,b2,...,bn},且新基在标准基下的表示为 b i = ∑ k = 1 n a k i e k \mathbf{b}i = \sum{k=1}^n a{ki}\mathbf{e}_k bi=∑k=1nakiek( i = 1 , 2 , ... , n i=1,2,\dots,n i=1,2,...,n)。
构造矩阵 P = b 1 b 2 ... b n P = \begin{bmatrix} \mathbf{b}_1 & \mathbf{b}_2 & \dots & \mathbf{b}_n \end{bmatrix} P=b1b2...bn(列向量为新基在标准基下的表示),则 P P P 称为从新基到标准基的基变换矩阵。
6.2 向量在不同基下的表示转换
设向量 v \mathbf{v} v 在新基下的坐标为
x 1 x 2 ... x n \begin{bmatrix} x_1 \\ x_2 \\ \dots \\ x_n \end{bmatrix} x1x2...xn ,
则
v = ∑ i = 1 n x i b i = P x 1 x 2 ... x n \mathbf{v} = \sum_{i=1}^n x_i \mathbf{b}_i = P \begin{bmatrix} x_1 \\ x_2 \\ \dots \\ x_n \end{bmatrix} v=∑i=1nxibi=P x1x2...xn 。
若 v \mathbf{v} v 在标准基下的坐标为
y 1 y 2 ... y n \begin{bmatrix} y_1 \\ y_2 \\ \dots \\ y_n \end{bmatrix} y1y2...yn ,
则
y 1 y 2 ... y n = P x 1 x 2 ... x n \begin{bmatrix} y_1 \\ y_2 \\ \dots \\ y_n \end{bmatrix} = P \begin{bmatrix} x_1 \\ x_2 \\ \dots \\ x_n \end{bmatrix} y1y2...yn =P x1x2...xn ,
即新基坐标转换为标准基坐标的公式为 y = P x \mathbf{y} = P\mathbf{x} y=Px。
反之,标准基坐标转换为新基坐标的公式为 x = P − 1 y \mathbf{x} = P^{-1}\mathbf{y} x=P−1y( P − 1 P^{-1} P−1 为 P P P 的逆矩阵)。
6.3 线性变换在不同基下的矩阵
设线性变换 L L L 在标准基下的矩阵为 M M M,在新基下的矩阵为 M ′ M' M′,则两者满足 M ′ = P − 1 M P M' = P^{-1}MP M′=P−1MP,推导逻辑为:
- 向量 v \mathbf{v} v 在新基下的坐标为 x \mathbf{x} x,转换为标准基坐标为 y = P x \mathbf{y} = P\mathbf{x} y=Px;
- 标准基下执行变换 L L L: y ′ = M y = M P x \mathbf{y}' = M\mathbf{y} = MP\mathbf{x} y′=My=MPx;
- 转换回新基坐标: x ′ = P − 1 y ′ = P − 1 M P x \mathbf{x}' = P^{-1}\mathbf{y}' = P^{-1}MP\mathbf{x} x′=P−1y′=P−1MPx;
- 因此新基下变换矩阵为 M ′ = P − 1 M P M' = P^{-1}MP M′=P−1MP。
6.4 基与坐标的关系示例
在标准坐标系中,向量的坐标可理解为基向量 i \mathbf{i} i、 j \mathbf{j} j 缩放的倍数。例如,向量 3 2 \begin{bmatrix} 3 \\ 2 \end{bmatrix} 32 表示将 i \mathbf{i} i 缩放 3 3 3 倍、 j \mathbf{j} j 缩放 2 2 2 倍后相加的结果。基向量是标准坐标系的隐含假设,向量与坐标的对应关系依赖于选定的基。

设存在"Jennifer 坐标系",其基向量为 b 1 \mathbf{b}_1 b1、 b 2 \mathbf{b}_2 b2,在标准坐标系中表示为 b 1 = ( 2 , 1 ) \mathbf{b}_1 = (2, 1) b1=(2,1)、 b 2 = ( − 1 , 1 ) \mathbf{b}_2 = (-1, 1) b2=(−1,1)。则 Jennifer 坐标系中的任意向量 x y \begin{bmatrix} x \\ y \end{bmatrix} xy 可表示为 x b 1 + y b 2 x\mathbf{b}_1 + y\mathbf{b}_2 xb1+yb2。
例如,Jennifer 坐标系中的向量 − 1 2 \begin{bmatrix} -1 \\ 2 \end{bmatrix} −12,在标准坐标系中的表示为:
− 1 ⋅ b 1 + 2 ⋅ b 2 = − 1 ⋅ ( 2 , 1 ) + 2 ⋅ ( − 1 , 1 ) = ( − 4 , 1 ) -1 \cdot \mathbf{b}_1 + 2 \cdot \mathbf{b}_2 = -1 \cdot (2, 1) + 2 \cdot (-1, 1) = (-4, 1) −1⋅b1+2⋅b2=−1⋅(2,1)+2⋅(−1,1)=(−4,1)
需注意:Jennifer 坐标系内部,基向量 b 1 \mathbf{b}_1 b1、 b 2 \mathbf{b}_2 b2 的坐标仍为 ( 1 , 0 ) (1, 0) (1,0)、 ( 0 , 1 ) (0, 1) (0,1)(所有坐标系的基向量在自身坐标系中均为标准单位向量)。
6.5 基变换矩阵的应用
将 Jennifer 坐标系的基向量在标准坐标系中的表示按列排列,构成矩阵 P = 2 − 1 1 1 P = \begin{bmatrix} 2 & -1 \\ 1 & 1 \end{bmatrix} P=21−11,其作用是"Jennifer 坐标系坐标到标准坐标系坐标"的转换。例如,Jennifer 坐标系中的向量 x y \begin{bmatrix} x \\ y \end{bmatrix} xy,在标准坐标系中的坐标为 P x y P\begin{bmatrix} x \\ y \end{bmatrix} Pxy。

矩阵 P P P 的逆矩阵 P − 1 P^{-1} P−1 对应逆转换(标准坐标系到 Jennifer 坐标系)。例如,标准坐标系中的向量 3 2 \begin{bmatrix} 3 \\ 2 \end{bmatrix} 32,在 Jennifer 坐标系中的坐标为:
P − 1 3 2 = 2 − 1 1 1 − 1 3 2 = 1 3 1 3 − 1 3 2 3 3 2 = 5 3 1 3 P^{-1} \begin{bmatrix} 3 \\ 2 \end{bmatrix} = \begin{bmatrix} 2 & -1 \\ 1 & 1 \end{bmatrix}^{-1} \begin{bmatrix} 3 \\ 2 \end{bmatrix} = \begin{bmatrix} \frac{1}{3} & \frac{1}{3} \\ -\frac{1}{3} & \frac{2}{3} \end{bmatrix} \begin{bmatrix} 3 \\ 2 \end{bmatrix} = \begin{bmatrix} \frac{5}{3} \\ \frac{1}{3} \end{bmatrix} P−132=21−11−132=31−31313232=3531
6.6 不同基下的线性变换示例
若需在 Jennifer 坐标系中实现"逆时针旋转 9 0 ∘ 90^\circ 90∘",不能直接使用标准坐标系的旋转矩阵 0 − 1 1 0 \begin{bmatrix} 0 & -1 \\ 1 & 0 \end{bmatrix} 01−10,需通过基变换实现,步骤为:
- 将 Jennifer 坐标系中的向量转换为标准坐标系坐标(乘以 P P P);
- 在标准坐标系中进行逆时针 9 0 ∘ 90^\circ 90∘ 旋转(乘以旋转矩阵 R = 0 − 1 1 0 R = \begin{bmatrix} 0 & -1 \\ 1 & 0 \end{bmatrix} R=01−10);
- 将旋转后的坐标转换回 Jennifer 坐标系(乘以 P − 1 P^{-1} P−1)。
最终,Jennifer 坐标系中逆时针旋转 9 0 ∘ 90^\circ 90∘ 的变换矩阵为 P − 1 R P P^{-1}RP P−1RP。一般地, P − 1 M P P^{-1}MP P−1MP 体现"坐标转移"思想: M M M 为标准坐标系的线性变换, P P P 与 P − 1 P^{-1} P−1 实现坐标转换, P − 1 M P P^{-1}MP P−1MP 为非标准坐标系中对应的线性变换。
三、线性方程组
1. 逆变换与逆矩阵
设线性变换 L L L 对应矩阵 A A A,若存在另一个线性变换 L − 1 L^{-1} L−1,使得对任意向量 v \mathbf{v} v,有 L − 1 ( L ( v ) ) = v L^{-1}(L(\mathbf{v})) = \mathbf{v} L−1(L(v))=v 且 L ( L − 1 ( v ) ) = v L(L^{-1}(\mathbf{v})) = \mathbf{v} L(L−1(v))=v,则称 L L L 为可逆变换, L − 1 L^{-1} L−1 为 L L L 的逆变换。
逆变换对应的矩阵称为原矩阵的逆矩阵,记为 A − 1 A^{-1} A−1,满足 A − 1 A = A A − 1 = I A^{-1}A = AA^{-1} = I A−1A=AA−1=I( I I I 为单位矩阵,对应恒等变换)。
1.1 逆矩阵的存在性
矩阵 A A A 可逆的充要条件为 det ( A ) ≠ 0 \det(A) \neq 0 det(A)=0(即 A A A 对应的变换为非降维变换)。若 det ( A ) = 0 \det(A) = 0 det(A)=0,则 A A A 对应的变换为降维变换(如二维平面压缩为直线),无法通过逆变换恢复原向量,因此 A A A 不可逆。

1.2 逆矩阵的示例
-
逆时针旋转 9 0 ∘ 90^\circ 90∘ 的变换矩阵为 A = 0 − 1 1 0 A = \begin{bmatrix} 0 & -1 \\ 1 & 0 \end{bmatrix} A=01−10,其逆变换为顺时针旋转 9 0 ∘ 90^\circ 90∘,对应的逆矩阵为 A − 1 = 0 1 − 1 0 A^{-1} = \begin{bmatrix} 0 & 1 \\ -1 & 0 \end{bmatrix} A−1=0−110;

-
验证: A − 1 A = 0 1 − 1 0 0 − 1 1 0 = 1 0 0 1 = I A^{-1}A = \begin{bmatrix} 0 & 1 \\ -1 & 0 \end{bmatrix} \begin{bmatrix} 0 & -1 \\ 1 & 0 \end{bmatrix} = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} = I A−1A=0−11001−10=1001=I;

2. 非齐次线性方程组的求解
非齐次线性方程组的一般形式为 A x = v A \boldsymbol{x} = \boldsymbol{v} Ax=v,其中 A A A 为 m × n m \times n m×n 系数矩阵, x ∈ R n \boldsymbol{x} \in \mathbb{R}^n x∈Rn 为 n n n 维未知列向量, v ∈ R m \boldsymbol{v} \in \mathbb{R}^m v∈Rm 为 m m m 维非零常数列向量。求解的本质是"寻找向量 x \boldsymbol{x} x,使其经 A A A 对应的线性变换后与 v \boldsymbol{v} v 重合"。

2.1 基础定义与示例
给定方程组:
{ 2 x + 5 y + 3 z = − 3 4 x + 0 y + 8 z = 0 1 x + 3 y + 0 z = 2 \begin{cases} 2x + 5y + 3z = -3 \\ 4x + 0y + 8z = 0 \\ 1x + 3y + 0z = 2 \end{cases} ⎩ ⎨ ⎧2x+5y+3z=−34x+0y+8z=01x+3y+0z=2
其矩阵形式对应为:
A = 2 5 3 4 0 8 1 3 0 , x = x y z , v = − 3 0 2 A = \begin{bmatrix} 2 & 5 & 3 \\ 4 & 0 & 8 \\ 1 & 3 & 0 \end{bmatrix}, \quad \boldsymbol{x} = \begin{bmatrix} x \\ y \\ z \end{bmatrix}, \quad \boldsymbol{v} = \begin{bmatrix} -3 \\ 0 \\ 2 \end{bmatrix} A= 241503380 ,x= xyz ,v= −302
2.2 解的存在性与唯一性分析
解的情况需结合 A A A 的维度、秩(或行列式)及 v \boldsymbol{v} v 的位置判断,分为两类:
(1)当 A A A 为 n n n 阶方阵时
-
有唯一解( det ( A ) ≠ 0 \det(A) \neq 0 det(A)=0,即 A A A 满秩、可逆)
- 几何意义: A A A 对应 n n n 维空间到 n n n 维空间的非降维变换,仅存在一个 x \boldsymbol{x} x 经变换后与 v \boldsymbol{v} v 重合;
- 求解方法:对 A x = v A\boldsymbol{x} = \boldsymbol{v} Ax=v 两边左乘 A − 1 A^{-1} A−1,得唯一解 x = A − 1 v \boldsymbol{x} = A^{-1}\boldsymbol{v} x=A−1v( v \boldsymbol{v} v 经 A A A 逆变换后的结果)。
-
无穷解或无解( det ( A ) = 0 \det(A) = 0 det(A)=0,即 A A A 非满秩、不可逆)
- 几何意义: A A A 对应降维变换,变换后空间为 A A A 的列空间(维度小于 n n n),仅当 v \boldsymbol{v} v 落在列空间内时方程组有解;
- 解的个数:若 v \boldsymbol{v} v 在列空间内(即 v \boldsymbol{v} v 是 A A A 列向量的线性组合),则无穷多 x \boldsymbol{x} x 会被压缩到同一 v \boldsymbol{v} v,方程组有无穷解;若 v \boldsymbol{v} v 不在列空间内,则方程组无解。
(2)当 A A A 为非方阵时
解的存在性与唯一性需通过列空间维度、秩的关系(如 r ( A ) r(A) r(A) 与 r ( A ∣ v ) r(A|\boldsymbol{v}) r(A∣v) 是否相等)进一步分析,具体内容见"四、非方阵"章节。
3. 列空间
设 A A A 为 m × n m \times n m×n 矩阵, x ∈ R n \boldsymbol{x} \in \mathbb{R}^n x∈Rn,矩阵 A A A 的列空间(Column Space)定义为: A A A 的列向量所有线性组合构成的向量集合,本质是这些列向量张成的 R m \mathbb{R}^m Rm 子空间,也等价于所有形如 A x A\boldsymbol{x} Ax 的向量集合(线性变换 A A A 的所有可能输出),严格记为 Col ( A ) = { A x ∣ x ∈ R n } \text{Col}(A) = \{ A\boldsymbol{x} \mid \boldsymbol{x} \in \mathbb{R}^n \} Col(A)={Ax∣x∈Rn}。
3.1 列空间与秩的关系
矩阵 A A A 的秩(记为 R ( A ) R(A) R(A))等于其列空间的维度,即 R ( A ) = dim ( Col ( A ) ) R(A) = \dim(\text{Col}(A)) R(A)=dim(Col(A))。
- 例 1:若 3 × 3 3 \times 3 3×3 矩阵 A A A 的列空间为二维平面,则 R ( A ) = 2 R(A) = 2 R(A)=2;
- 例 2:若 3 × 3 3 \times 3 3×3 矩阵 A A A 的列空间为一维直线,则 R ( A ) = 1 R(A) = 1 R(A)=1。
3.2 列空间的性质
- 几何意义: Col ( A ) \text{Col}(A) Col(A) 是线性变换 A A A 作用后所有可能输出向量构成的空间;
- 零向量包含性:零向量 0 ∈ R m \boldsymbol{0} \in \mathbb{R}^m 0∈Rm 必在 Col ( A ) \text{Col}(A) Col(A) 内,因线性变换满足"保原点性"( A 0 = 0 A\boldsymbol{0} = \boldsymbol{0} A0=0);
- 方程组解的判定:非齐次线性方程组 A x = v A\boldsymbol{x} = \boldsymbol{v} Ax=v 有解的充要条件是 v ∈ Col ( A ) \boldsymbol{v} \in \text{Col}(A) v∈Col(A)。
4. 零空间与齐次线性方程组
4.1 概念与定义
零空间(Null Space),记作 N ( A ) N(A) N(A) 或 ker ( A ) \text{ker}(A) ker(A),是矩阵 A A A 变换后所有落在零向量上的向量集合,本质是齐次线性方程组 A x ⃗ = 0 ⃗ A\vec{x} = \vec{0} Ax =0 的所有解的集合,定义为:
N ( A ) = { x ⃗ ∣ A x ⃗ = 0 ⃗ } N(A) = \left\{ \vec{x} \mid A\vec{x} = \vec{0} \right\} N(A)={x ∣Ax =0 }
- 非满秩变换(不可逆变换) :当 A A A 不可逆( det ( A ) = 0 \det(A) = 0 det(A)=0,或列/行向量线性相关,或秩小于维度)时,空间被压缩至更低维度,除零向量外,还存在非零向量 x ⃗ \vec{x} x 经 A A A 变换后变为零向量,零空间即这些向量的集合;
- 齐次方程解 :零空间直接给出 A x ⃗ = 0 ⃗ A\vec{x} = \vec{0} Ax =0 的所有可能解。
4.2 零空间与解的关系
- 当 det ( A ) ≠ 0 \det(A) \neq 0 det(A)=0 时 : A A A 可逆(满秩),零空间仅包含零向量( N ( A ) = { 0 ⃗ } N(A) = \{\vec{0}\} N(A)={0 }),齐次方程 A x ⃗ = 0 ⃗ A\vec{x} = \vec{0} Ax =0 只有唯一零解 x ⃗ = 0 ⃗ \vec{x} = \vec{0} x =0 ;
- 当 det ( A ) = 0 \det(A) = 0 det(A)=0 时 : A A A 不可逆(不满秩),零空间包含非零向量,齐次方程 A x ⃗ = 0 ⃗ A\vec{x} = \vec{0} Ax =0 有非零解(无穷多解),这些解构成零空间。
下方示意图展示非满秩变换如何将一条直线(零空间中的向量集合,若零空间为一维)压缩为单个点(零向量):
![]() |
![]() |
|---|---|
| 变换前的向量集合 | 变换后变为零向量的集合 |
4.3 方程组求解的实质
无论是 A x ⃗ = 0 ⃗ A\vec{x} = \vec{0} Ax =0 (齐次)还是 A x ⃗ = b ⃗ A\vec{x} = \vec{b} Ax =b (非齐次, b ⃗ ≠ 0 ⃗ \vec{b} \neq \vec{0} b =0 ),求解本质是在定义域 R n \mathbb{R}^n Rn 中寻找向量 x ⃗ \vec{x} x ,使其经 A A A 的线性变换后满足特定条件:
- 齐次方程组 :寻找所有 x ⃗ ∈ R n \vec{x} \in \mathbb{R}^n x ∈Rn,使 A x ⃗ A\vec{x} Ax 等于零向量(即找到 N ( A ) N(A) N(A) 中的所有向量);
- 非齐次方程组 :寻找所有 x ⃗ ∈ R n \vec{x} \in \mathbb{R}^n x ∈Rn,使 A x ⃗ A\vec{x} Ax 等于目标向量 b ⃗ \vec{b} b (即判断 b ⃗ \vec{b} b 是否在 Col ( A ) \text{Col}(A) Col(A) 内,若在则找到所有映射到 b ⃗ \vec{b} b 的"原像" x ⃗ \vec{x} x )。
零空间 N ( A ) N(A) N(A) 在理解非齐次方程组的通解结构(特解加上齐次方程组的通解)中起关键作用。
四、非方阵
此前讨论的线性变换均为等维变换(输入与输出向量维度相同),非方阵(行数与列数不相等)可实现向量维度的升高或降低,对应维度映射型线性变换。


1. 非方阵变换矩阵的实质
与方阵类似,非方阵的列向量可看作线性变换后基向量的形式,含义由矩阵的行数( m m m)与列数( n n n)决定:
- m × n m \times n m×n 非方阵的列向量,对应 n n n 维原始空间基向量经变换后的结果,且变换后基向量用 m m m 个坐标表示(属于 m m m 维空间);
- 因此, m × n m \times n m×n 非方阵对应的线性变换,是将 n n n 维向量转换为 m m m 维向量。
示例:
- 3 × 2 3 \times 2 3×2 矩阵 1 2 3 4 5 6 \begin{bmatrix} 1 & 2 \\ 3 & 4 \\ 5 & 6 \end{bmatrix} 135246 :列向量为二维基向量 i \mathbf{i} i、 j \mathbf{j} j 经变换后的三维向量,对应"二维到三维"的升维变换;
- 2 × 3 2 \times 3 2×3 矩阵 1 2 3 4 5 6 \begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{bmatrix} 142536:列向量为三维基向量 i \mathbf{i} i、 j \mathbf{j} j、 k \mathbf{k} k 经变换后的二维向量,对应"三维到二维"的降维变换;
- 1 × n 1 \times n 1×n 矩阵:对应" n n n 维向量到一维标量"的映射; n × 1 n \times 1 n×1 矩阵:对应"一维标量到 n n n 维向量"的映射(如向量数乘)。
需注意向量数乘与非方阵变换的区别:
- 向量数乘:仅对向量进行缩放,不改变方向(除非乘负数)和维度,可看作特殊的方阵变换(对角矩阵);
- 非方阵变换:核心功能是改变向量的维度(升维或降维);
- 方阵变换:不改变向量维度,仅进行旋转、缩放、剪切、反射等几何操作。
2. 几何意义
非方阵对应的线性变换本质是"向量在不同维度空间间的映射",具体示例如下:
- 3 × 2 3 \times 2 3×2 矩阵 1 2 3 4 5 6 \begin{bmatrix} 1 & 2 \\ 3 & 4 \\ 5 & 6 \end{bmatrix} 135246 :列空间为两个三维列向量张成的二维平面,向量乘法 1 2 3 4 5 6 1 4 \begin{bmatrix} 1 & 2 \\ 3 & 4 \\ 5 & 6 \end{bmatrix} \begin{bmatrix} 1 \\ 4 \end{bmatrix} 135246 14 的几何意义是"将二维向量映射到三维空间的该二维平面上";
- 2 × 3 2 \times 3 2×3 矩阵 1 2 3 4 5 6 \begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{bmatrix} 142536:列空间为三个二维列向量张成的二维平面,向量乘法 1 2 3 4 5 6 1 3 5 \begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{bmatrix} \begin{bmatrix} 1 \\ 3 \\ 5 \end{bmatrix} 142536 135 的几何意义是"将三维向量映射到该二维平面上";
- 1 × 2 1 \times 2 1×2 矩阵 1 4 \begin{bmatrix} 1 & 4 \end{bmatrix} 14:列空间为两个一维向量张成的一维直线,向量乘法 1 4 1 4 \begin{bmatrix} 1 & 4 \end{bmatrix} \begin{bmatrix} 1 \\ 4 \end{bmatrix} 1414 的几何意义是"将二维向量映射到该一维直线上,结果为标量";
- 2 × 1 2 \times 1 2×1 矩阵 1 4 \begin{bmatrix} 1 \\ 4 \end{bmatrix} 14:列空间为该二维向量张成的一维直线,向量乘法 1 4 × 4 \begin{bmatrix} 1 \\ 4 \end{bmatrix} \times 4 14×4 的几何意义是"将一维标量映射到该一维直线上"。
3. 非方阵的变换类型
3.1 行数大于列数( m > n m > n m>n):升维操作
以 3 × 2 3 \times 2 3×2 矩阵 A = a b c d e f A = \begin{bmatrix} a & b \\ c & d \\ e & f \end{bmatrix} A= acebdf 为例,其线性变换将二维向量 x ⃗ = m n \vec{x} = \begin{bmatrix} m \\ n \end{bmatrix} x =mn 转换为三维向量 v ⃗ = x y z \vec{v} = \begin{bmatrix} x \\ y \\ z \end{bmatrix} v = xyz (即 A x ⃗ = v ⃗ A\vec{x} = \vec{v} Ax =v ),实现升维。
该变换的列空间为矩阵 A A A 两列(三维向量)张成的二维平面,与原始向量维度相同,因此 A A A 为满秩矩阵(秩等于列数 n = 2 n = 2 n=2)。

3.2 行数小于列数( m < n m < n m<n):降维操作
以 2 × 3 2 \times 3 2×3 矩阵 B = p q r s t u B = \begin{bmatrix} p & q & r \\ s & t & u \end{bmatrix} B=psqtru 为例,其线性变换将三维向量 v ⃗ = x y z \vec{v} = \begin{bmatrix} x \\ y \\ z \end{bmatrix} v = xyz 转换为二维向量 x ⃗ = m n \vec{x} = \begin{bmatrix} m \\ n \end{bmatrix} x =mn(即 B v ⃗ = x ⃗ B\vec{v} = \vec{x} Bv =x ),实现降维。
该变换的列空间为矩阵 B B B 三列(二维向量)张成的二维平面,小于原始向量维度( 3 3 3),因此 B B B 为非满秩矩阵(秩等于行数 m = 2 m = 2 m=2)。

4. 非方阵的变换复合
非方阵矩阵相乘需满足"左矩阵列数 = 右矩阵行数",复合变换结果由矩阵顺序决定,核心差异为信息是否损失。
设 3 × 2 3 \times 2 3×2 满秩矩阵 A = a b c d e f A = \begin{bmatrix} a & b \\ c & d \\ e & f \end{bmatrix} A= acebdf , 2 × 3 2 \times 3 2×3 满秩矩阵 B = g h i j k l B = \begin{bmatrix} g & h & i \\ j & k & l \end{bmatrix} B=gjhkil,二维向量 x ⃗ = m n \vec{x} = \begin{bmatrix} m \\ n \end{bmatrix} x =mn,三维向量 v ⃗ = x y z \vec{v} = \begin{bmatrix} x \\ y \\ z \end{bmatrix} v = xyz ,两类复合变换对比如下:
4.1 复合变换 B A BA BA(先 A A A 后 B B B)
- 变换顺序 :以二维向量 x ⃗ \vec{x} x 为初始,先经 A A A 映射,再经 B B B 映射;
- 分步过程 : x ⃗ \vec{x} x (二维)→ A x ⃗ A\vec{x} Ax (三维,落在 A A A 的列空间)→ B A x ⃗ BA\vec{x} BAx (二维,落在 B B B 的列空间);
- 信息状态 :全程保持二维范围映射,无信息丢失,原始向量 x ⃗ \vec{x} x 可通过逆变换还原;
- 矩阵属性 : B A BA BA 为 2 × 2 2 \times 2 2×2 方阵,列空间维度为 2 2 2(满秩),具备可逆性。
4.2 复合变换 A B AB AB(先 B B B 后 A A A)
- 变换顺序 :以三维向量 v ⃗ \vec{v} v 为初始,先经 B B B 映射,再经 A A A 映射;
- 分步过程 : v ⃗ \vec{v} v (三维)→ B v ⃗ B\vec{v} Bv (二维,落在 B B B 的列空间,伴随三维压缩)→ A B v ⃗ AB\vec{v} ABv (三维,落在 A A A 的列空间);
- 信息状态 :初始三维空间被压缩至二维,信息不可逆失,原始向量 v ⃗ \vec{v} v 无法还原;
- 矩阵属性 : A B AB AB 为 3 × 3 3 \times 3 3×3 方阵,列空间维度为 2 2 2(非满秩),不具备可逆性。
5. 非方阵系数矩阵的线性方程组
5.1 基本概念与几何本质
以非方阵 A A A 为系数矩阵的线性方程组分为两类:
- 非齐次线性方程组 A x ⃗ = v ⃗ A\vec{x} = \vec{v} Ax =v :寻找向量 x ⃗ \vec{x} x ,使经 A A A 变换后与 v ⃗ \vec{v} v 重合;
- 齐次线性方程组 A x ⃗ = 0 ⃗ A\vec{x} = \vec{0} Ax =0 :寻找向量 x ⃗ \vec{x} x ,使经 A A A 变换后得到零向量 0 ⃗ \vec{0} 0 。
从几何视角看,求解本质是"在 A A A 的列空间中,寻找与 v ⃗ \vec{v} v 重合的向量(非齐次),或寻找能映射为零向量的向量(齐次)"。
5.2 行数大于列数的满秩矩阵( m × n m \times n m×n, m > n m > n m>n)
设 A A A 为 m × n m \times n m×n 列满秩矩阵(满秩条件 R ( A ) = n R(A) = n R(A)=n,列向量线性无关),其列空间为 m m m 维空间中的 n n n 维子空间(如 3 × 2 3 \times 2 3×2 满秩矩阵的列空间是三维空间内的二维平面)。
5.2.1 非齐次方程组 A x ⃗ = v ⃗ A\vec{x} = \vec{v} Ax =v 的解
- 存在性 :当且仅当 v ⃗ \vec{v} v 属于 A A A 的列空间时,方程组有解(此时增广矩阵秩 R ( A ∣ v ⃗ ) = R ( A ) = n R(A\|\\vec{v}) = R(A) = n R(A∣v )=R(A)=n);若 v ⃗ \vec{v} v 不在列空间内, R ( A ∣ v ⃗ ) = n + 1 > R ( A ) R(A\|\\vec{v}) = n + 1 > R(A) R(A∣v )=n+1>R(A),方程组无解;
- 唯一性 :有解时,因列向量线性无关, x ⃗ \vec{x} x 的每个分量由线性组合唯一确定,解唯一。
5.2.2 齐次方程组 A x ⃗ = 0 ⃗ A\vec{x} = \vec{0} Ax =0 的解
因列向量线性无关,仅当线性组合系数全为零时,列向量组合才能得到零向量,故方程组仅有零解(无中生有)。

5.3 行数小于列数的满秩矩阵( m × n m \times n m×n, m < n m < n m<n)
设 A A A 为 m × n m \times n m×n 行满秩矩阵(满秩条件 R ( A ) = m R(A) = m R(A)=m,行向量线性无关),其列空间为完整的 m m m 维空间(因行满秩时列空间维度等于行数 m m m)。
5.3.1 非齐次方程组 A x ⃗ = v ⃗ A\vec{x} = \vec{v} Ax =v 的解
- 存在性 :因 v ⃗ \vec{v} v 是 m m m 维向量,必然属于 A A A 的列空间(列空间为完整 m m m 维空间),故方程组总有解( R ( A ∣ v ⃗ ) = R ( A ) = m R(A\|\\vec{v}) = R(A) = m R(A∣v )=R(A)=m,无矛盾行);
- 解的数量 :自由变量个数为 n − R ( A ) = n − m > 0 n - R(A) = n - m > 0 n−R(A)=n−m>0,自由变量取不同值对应不同解,故方程组有无穷多解。
5.3.2 齐次方程组 A x ⃗ = 0 ⃗ A\vec{x} = \vec{0} Ax =0 的解
因解空间维度为 n − R ( A ) = n − m > 0 n - R(A) = n - m > 0 n−R(A)=n−m>0,存在非零向量满足方程,故方程组有非零解(即存在向量经 A A A 变换后被压缩为零向量)。

5.4 解的情况总结与验证
非方阵方程组 A x ⃗ = v ⃗ A\vec{x} = \vec{v} Ax =v 解的存在性与唯一性,取决于 A A A 的维度( m m m 与 n n n 的大小)和秩,具体总结如下表:
| 矩阵类型 | 满秩条件 | 解的情况 |
|---|---|---|
| m × n m \times n m×n( m > n m > n m>n) | R ( A ) = n R(A) = n R(A)=n(列满秩) | 非齐次: v ⃗ \vec{v} v 在列空间内则有唯一解,否则无解 齐次:仅零解 |
| m × n m \times n m×n( m < n m < n m<n) | R ( A ) = m R(A) = m R(A)=m(行满秩) | 非齐次:总有解,且有无穷多解 齐次:有非零解 |
5.4.1 列满秩矩阵( m > n m > n m>n)的验证
- 满秩条件 : R ( A ) = n R(A) = n R(A)=n 表示列向量线性无关,列空间维度等于列数 n n n;
- 解的验证 :存在性由 v ⃗ \vec{v} v 是否在列空间决定,唯一性由列向量线性无关保证,齐次方程仅零解。
5.4.2 行满秩矩阵( m < n m < n m<n)的验证
- 满秩条件 : R ( A ) = m R(A) = m R(A)=m 表示行向量线性无关,行空间维度等于行数 m m m;
- 解的验证 :存在性由列空间覆盖完整 m m m 维空间保证,无穷多解由自由变量个数大于 0 0 0 保证,齐次方程有非零解由解空间维度大于 0 0 0 保证。
- 线性代数 | 要义 / 本质(增篇 2)-CSDN博客
https://blog.csdn.net/u013669912/article/details/153657084
- 线性代数 | 要义 / 本质 (上篇)-CSDN博客
https://blog.csdn.net/u013669912/article/details/153110982 - 线性代数 | 要义 / 本质 (下篇)_行列式的定义-CSDN博客
https://blog.csdn.net/u013669912/article/details/153215664
via: 重排自
- 线性代数的本质(完整版) - 知乎
https://zhuanlan.zhihu.com/p/629986822

