机器学习线性代数--(7)逆矩阵、列空间、秩、零空间与非方阵

从几何视角理解线性变换的深层结构

在前几讲中，我们学会了用矩阵描述线性变换，并用行列式测量变换对面积的缩放。现在，我们将探索一些更深刻的问题：一个变换能否被"撤销"？变换后的空间是什么样的？哪些向量被压缩到了原点？不同维度的空间之间如何变换？这些问题将引向线性代数的核心概念------逆矩阵、列空间、秩、零空间，以及非方阵。

7.1 逆矩阵：变换的"撤销"

假设有一个线性变换 A A A，它将空间中的向量 v ⃗ \vec{v} v 映射到 w ⃗ \vec{w} w ，即 w ⃗ = A v ⃗ \vec{w} = A\vec{v} w =Av 。如果我们想"撤销"这个变换，找到某个变换 B B B，使得 B w ⃗ = v ⃗ B\vec{w} = \vec{v} Bw =v ，那么 B B B 就是 A A A 的逆矩阵 ，记作 A − 1 A^{-1} A−1。

几何意义

逆矩阵对应于原变换的反向操作 。例如，如果 A A A 是逆时针旋转90°，那么 A − 1 A^{-1} A−1 就是顺时针旋转90°；如果 A A A 将x方向拉伸2倍，那么 A − 1 A^{-1} A−1 就将x方向压缩为1/2。
存在条件：行列式不为零

逆矩阵存在的前提是变换后空间没有被压缩。如果行列式 det ⁡ ( A ) = 0 \det(A) = 0 det(A)=0，意味着变换将面积（或体积）压缩为零，即降维了（比如平面被压缩成直线）。此时，无法从输出唯一地找回输入，因为多个输入可能映射到同一个输出------变换不可逆。因此：
矩阵可逆 ⟺ det ⁡ ( A ) ≠ 0 \text{矩阵可逆} \iff \det(A) \neq 0 矩阵可逆⟺det(A)=0
与线性方程组的关系

逆矩阵直接给出线性方程组 A x ⃗ = v ⃗ A\vec{x} = \vec{v} Ax =v 的解： x ⃗ = A − 1 v ⃗ \vec{x} = A^{-1}\vec{v} x =A−1v 。当 A A A 可逆时，解存在且唯一。
二阶逆矩阵公式

对于矩阵 A = $a c b d$ A=\begin{bmatrix}a & c \\ b & d\end{bmatrix} A= $abcd$ ，当其行列式 d e t ( A ) ≠ 0 det(A) \neq 0 det(A)=0 时是可逆的，则其逆矩阵 A − 1 A^{-1} A−1的计算公式为：
A − 1 = 1 a d − b c $d - c - b a$ ⟺ A × A − 1 = $1 0 0 1$ A^{-1} = \frac{1}{ad-bc} \begin{bmatrix}d & -c \\ -b & a\end{bmatrix} \iff A\times{A^{-1}}=\begin{bmatrix}1 & 0 \\ 0 & 1\end{bmatrix} A−1=ad−bc1 $d-b-ca$ ⟺A×A−1= $1001$

口诀：主对角线交换，副对角线变号，再除以行列式

7.2 列空间：变换后的"像"

矩阵的列是变换后的基向量。这些列向量张成的空间，就是所有可能输出向量的集合，称为列空间 （或像）。

几何视角
- 对于一个 2 × 2 2\times2 2×2 矩阵，如果两列不共线，它们张成整个二维平面，列空间就是整个 R 2 \mathbb{R}^2 R2。
- 如果两列共线，它们张成一条直线，列空间就是这条直线（一维）。
- 如果两列都是零向量，列空间就是原点（零维）。
列空间的意义

列空间告诉我们：这个变换能将输入空间映射到输出空间的哪些地方？ 它是所有可能的输出向量的集合。例如，如果一个变换的列空间是二维平面中的一条直线，那么无论输入什么，输出都只会落在这条直线上------变换压缩了维度。

7.3 秩：列空间的维度

秩就是列空间的维度。它衡量了变换后空间的"大小"，或者说变换保留了多少维度的信息。

满秩：如果秩等于输入空间的维度（例如 2 × 2 2\times2 2×2 矩阵秩为2），则变换是满射到输出空间的某个子空间，且没有压缩维度（行列式非零）。此时，列空间就是整个输出空间（如果输出空间维度等于输入维度）或一个同维子空间。
降秩：如果秩小于输入空间的维度，则变换压缩了空间，信息丢失。例如秩为1时，所有输出都落在一条直线上。

**秩的直观理解：**你可以把秩想象成变换后"有效"的维度数。它等于矩阵线性无关的列数。

7.4 零空间（核）：被压缩到原点的向量

变换中，有些向量可能会被映射到零向量。所有满足 A v ⃗ = 0 ⃗ A\vec{v} = \vec{0} Av =0 的向量 v ⃗ \vec{v} v 构成的集合，称为零空间 （或核）。

几何意义

零空间反映了变换的"压缩"程度。如果零空间只包含零向量（即只有零向量被映射到零），那么变换是单射（一对一的），没有信息丢失。如果零空间包含非零向量，则存在不同的向量被映射到同一个输出，变换不可逆。
与秩的关系

有一个重要的定理（秩-零化度定理）：
秩 + 零空间维度 = 输入空间维度 \text{秩} + \text{零空间维度} = \text{输入空间维度} 秩+零空间维度=输入空间维度

例如，对于一个 2 × 2 2\times2 2×2 矩阵，如果秩为1，那么零空间的维度就是1（一条直线上的所有向量都被压缩到原点）。
例子

考虑一个将平面投影到x轴的变换： $1 0 0 0$ \begin{bmatrix}1&0\\0&0\end{bmatrix} $1000$ 。它的列空间是x轴（秩1），零空间是y轴（所有形如 $0 , y$ $0, y$ $0,y$ 的向量都被映射到原点）。

7.5 非方阵：不同维度之间的变换

到目前为止，我们讨论的都是方阵（输入和输出维度相同）。但线性变换也可以在不同维度的空间之间进行，比如从二维到三维，或从三维到二维。这些变换由非方阵表示。

从二维到三维： 3 × 2 3\times2 3×2 矩阵

一个 3 × 2 3\times2 3×2 矩阵有两列（因为输入是二维），每列是一个三维向量。它的几何意义是：将二维平面上的基向量 i ^ , j ^ \hat{i}, \hat{j} i^,j^ 映射到三维空间中的两个向量，从而把整个二维平面"嵌入"到三维空间中的一个平面（或直线，如果两列共线）。输出空间是三维，但列空间最多是二维（因为只有两个基向量）。所以列空间是三维空间中的一个过原点的平面（或直线）。

例子：
$1 0 0 1 0 0$ \begin{bmatrix} 1 & 0 \\ 0 & 1 \\ 0 & 0 \end{bmatrix} 100010

这个变换将二维平面映射到三维空间的 x y xy xy-平面（z=0），即保持前两维不变，第三维为0。列空间就是 x y xy xy-平面（二维），秩为2。
从三维到二维： 2 × 3 2\times3 2×3 矩阵

一个 2 × 3 2\times3 2×3 矩阵有三列（输入是三维），每列是一个二维向量。它将三维空间中的基向量 i ^ , j ^ , k ^ \hat{i}, \hat{j}, \hat{k} i^,j^,k^ 映射到二维平面上的三个向量。由于输入是三维，但输出只有二维，所以一定会压缩维度（除非三个基向量共面且张成二维空间，但无论如何最多输出二维）。列空间是二维空间中的一个子空间（可能是整个平面、一条直线或原点）。

例子：
$1 0 0 0 1 0 \] \\begin{bmatrix} 1 \& 0 \& 0 \\\\ 0 \& 1 \& 0 \\end{bmatrix} \[100100$
这个变换将三维向量 ( x , y , z ) (x,y,z) (x,y,z) 映射为 ( x , y ) (x,y) (x,y)，即忽略z坐标。列空间是整个二维平面（因为前两列张成整个 R 2 \mathbb{R}^2 R2），秩为2。零空间是z轴（所有形如 ( 0 , 0 , z ) (0,0,z) (0,0,z) 的向量被映射到零），维度为1。
非方阵的秩与零空间
- 对于 m × n m\times n m×n 矩阵（ n n n 维输入， m m m 维输出）：
  - 秩 ≤ min ⁡ ( m , n ) \min(m, n) min(m,n)。
  - 零空间维度 = n − 秩 n - \text{秩} n−秩（秩-零化度定理仍然成立）。
- 非方阵没有行列式（因为行列式只定义于方阵），但逆矩阵的概念通常不直接适用，除非考虑伪逆。

7.6 总结与联系

这些概念共同描绘了线性变换的完整画像：

逆矩阵：变换的撤销操作，要求行列式非零（即满秩方阵）。
列空间 ：所有可能的输出集合，由矩阵的列张成，其维度即秩。
秩：变换后空间的维度，衡量信息保留的程度。
零空间：所有被映射到零的向量，反映信息丢失的量（秩-零化度定理）。
非方阵：不同维度之间的映射，列空间是输出空间中的子空间，零空间仍存在。

把它们结合起来，你可以理解任意线性变换的内部结构：变换将输入空间划分为两部分------一部分（零空间）被压缩到零，另一部分（行空间，未详细讲）一一对应地映射到列空间。这正是线性代数基本定理的核心思想。

希望这个讲解能帮你建立起这些概念的几何直觉。当你面对一个矩阵时，试着想象它的列向量，思考它们张成的空间（列空间），以及哪些向量会被映射到原点（零空间）------这会让抽象的概念变得鲜活起来。

上一章 机器学习线性代数--(6)行列式：测量变换对空间的缩放