《机器学习数学基础》补充资料:秩-零化度定理

在拙作《机器学习数学基础》中,对于机器学习直接相关的线性代数的内容做了比较详细的讲解,但是,由于书中是以"机器学习"为核心,而非"线性代数",所以对其中的更基本的内容没有深入探究。为了让有兴趣深入学习的读者对线性代数"更上层楼",此处再补充线性代数的基本定理

线性代数的核心问题是向量空间的线性变换,向量空间是线性代数的研究对象,线性变换是研究向量空间的基本方法。线性变换将一个向量空间的子空间映射到另一个向量空间中的子空间。

Gilbert Strang在著作《The Fundamental Theorem of Linear Algebra》中提出线性代数有四个基本定理。本文的秩-零化度定理是其中的第一个。

以下关于秩-零化度定理(rank-nullity theorem)的阐述。以下内容主要参考文献 [2]。

如下图所示,线性变换 T : V → W \pmb{T}:\mathbb{V}\to\mathbb{W} T:V→W , V \mathbb{V} V 是有限维向量空间,称为定义域 ; T \pmb{T} T 的值域 ,记作: R ( T ) R(\pmb{T}) R(T) ,是 W \mathbb{W} W 的子集, R ( T ) = { T ( v ) ∣ v ∈ V } R({\pmb{T}})=\{\pmb{T}(\pmb{v})|\pmb{v}\in\mathbb{V}\} R(T)={T(v)∣v∈V}

  • :若 V \mathbb{V} V 里面有一个向量集合,其中每个向量 u \pmb{u} u 经 T \pmb{T} T 映射之后为零向量,即 T ( u ) = 0 \pmb{T}(\pmb{u})=\pmb{0} T(u)=0 ,则此向量集合称为 T \pmb{T} T 的 (kernel),记作: ker ⁡ ( T ) \ker(\pmb{T}) ker(T) 。 ker ( T ) \text{ker}(\pmb{T}) ker(T) 满足向量加法和数量乘法封闭性,是 V \mathbb{V} V 的一个子空间。核也称为零空间(nullspace), ker ⁡ ( T ) = { v ∈ V ∣ T ( v ) = 0 } \ker(\pmb{T})=\{\pmb{v}\in\mathbb{V}|\pmb{T}(\pmb{v})=\pmb{0}\} ker(T)={v∈V∣T(v)=0} 。

  • 零化度 :核的维度(dimension),称为零化度 (nullity),记作: dim ⁡ ker ⁡ ( T ) \dim\ker(\pmb{T}) dimker(T) 。可以度量核的大小。

  • :线性变换 T \pmb{T} T 的值域的维度,称为 (rank),记作: rank T = dim ⁡ R ( T ) \text{rank}\pmb{T}=\dim R(\pmb{T}) rankT=dimR(T) 。

秩---零化度定理

dim ⁡ V = dim ⁡ ker ⁡ ( T ) + rank T \dim\mathbb{V}=\dim\ker(\pmb{T})+\text{rank}\pmb{T} dimV=dimker(T)+rankT

其中: dim ⁡ V \dim\mathbb{V} dimV 是线性变换 T \pmb{T} T 的定义域、向量空间 V \mathbb{V} V 的维度; dim ⁡ ker ⁡ ( T ) \dim\ker(\pmb{T}) dimker(T) 是核的维度,即零化度; rank T \text{rank}\pmb{T} rankT 是值域的维度,即秩。

证明

证明1:通过矩阵

将线性变换 T : V → W \pmb{T}:\mathbb{V}\to\mathbb{W} T:V→W 用 m × n m\times n m×n 的矩阵 A \pmb{A} A 表示,其中: n = dim ⁡ V , m = dim ⁡ W n = \dim\mathbb{V}, m=\dim\mathbb{W} n=dimV,m=dimW 。

线性变换 T \pmb{T} T 的核 ker ⁡ ( T ) \ker(\pmb{T}) ker(T) 即为矩阵的零空间(null space) N ( A ) N(\pmb{A}) N(A) ,它的维度即矩阵的零化度,记作 dim ⁡ N ( A ) \dim N(\pmb{A}) dimN(A) 。关于零空间的详细内容,请阅读参考资料 [4]。

值域 R ( T ) R(\pmb{T}) R(T) 即为矩阵的列空间(column space) C ( A ) C(\pmb{A}) C(A) 。

将矩阵 A \pmb{A} A 化简为行梯形形式,用分块矩阵表示为:

R = [ I r F 0 0 ] \pmb{R}=\begin{bmatrix}\pmb{I}_r&\pmb{F}\\\pmb{0}&\pmb{0}\end{bmatrix} R=[Ir0F0]

其中 R \pmb{R} R 的秩 r = rank R r=\text{rank}\pmb{R} r=rankR , F \pmb{F} F 是 r × ( n − r ) r\times(n-r) r×(n−r) 阶矩阵。

因为矩阵行运算不改变轴数量,也不改变零空间,所以: rank A = rank R = r \text{rank}\pmb{A}=\text{rank}\pmb{R}=r rankA=rankR=r 且 N ( A ) = N ( R ) N(\pmb{A})=N(\pmb{R}) N(A)=N(R) 。

根据 R \pmb{R} R 的形状,写出 n × ( n − r ) n\times(n-r) n×(n−r) 阶零空间矩阵 P \pmb{P} P :

P = [ − F I n − r ] \pmb{P} = \begin{bmatrix}-\pmb{F}\\\pmb{I}_{n-r}\end{bmatrix} P=[−FIn−r]

用上述结果可以计算得到 R P = 0 \pmb{RP}=0 RP=0 ,故确认 P \pmb{P} P 是零空间矩阵。

R P = [ I r F 0 0 ] [ − F I n − r ] = [ − F + F 0 + 0 ] = 0 \pmb{RP}=\begin{bmatrix}\pmb{I}r&\pmb{F}\\\pmb{0}&\pmb{0}\end{bmatrix}\begin{bmatrix}-\pmb{F}\\\pmb{I}{n-r}\end{bmatrix}=\begin{bmatrix}-\pmb{F}+\pmb{F}\\\pmb{0}+\pmb{0}\end{bmatrix}=0 RP=[Ir0F0][−FIn−r]=[−F+F0+0]=0

设 x = [ x 1 x 2 ] \pmb{x}=\begin{bmatrix}\pmb{x}_1\\\pmb{x}_2\end{bmatrix} x=[x1x2] ,其中 x 1 \pmb{x}_1 x1 是 r r r 维向量, x 2 \pmb{x}_2 x2 是 n − r n-r n−r 维向量,欲使 R x = 0 \pmb{Rx}=\pmb{0} Rx=0 成立,即:

R x = [ I r F 0 0 ] [ x 1 x 2 ] = [ x 1 + F x 2 0 ] = 0 \pmb{Rx}=\begin{bmatrix}\pmb{I}_r&\pmb{F}\\\pmb{0}&\pmb{0}\end{bmatrix}\begin{bmatrix}\pmb{x}_1\\\pmb{x}_2\end{bmatrix}=\begin{bmatrix}\pmb{x}_1+\pmb{Fx}_2\\\pmb{0}\end{bmatrix}=\pmb{0} Rx=[Ir0F0][x1x2]=[x1+Fx20]=0

所以: x 1 = − F x 2 \pmb{x}_1=-\pmb{Fx}_2 x1=−Fx2 ,

于是: x = [ − F x 2 x 2 ] = [ − F I n − r ] x 2 = P x 2 \pmb{x}=\begin{bmatrix}-\pmb{Fx}_2\\\pmb{x}2\end{bmatrix}=\begin{bmatrix}-\pmb{F}\\\pmb{I}{n-r}\end{bmatrix}\pmb{x}_2=\pmb{Px}_2 x=[−Fx2x2]=[−FIn−r]x2=Px2

所以: C ( P ) = N ( R ) C(\pmb{P})=N(\pmb{R}) C(P)=N(R)

即: dim ⁡ N ( R ) = dim ⁡ C ( P ) = n − r \dim N(\pmb{R})=\dim C(\pmb{P})=n-r dimN(R)=dimC(P)=n−r 。从而证明:

n = dim ⁡ N ( A ) + rank A n = \dim N(\pmb{A}) + \text{rank}\pmb{A} n=dimN(A)+rankA
m × n m\times n m×n 的矩阵 A \pmb{A} A 的秩 rank A \text{rank}\pmb{A} rankA 和零化度 dim ⁡ N ( A ) \dim N(\pmb{A}) dimN(A) 之和等于 n n n

证明2:线性变换的向量空间分析

令 dim ⁡ V = n , dim ⁡ ker ⁡ ( T ) = p , p ≤ n \dim\mathbb{V} = n,\dim\ker(\pmb{T})=p,p\le n dimV=n,dimker(T)=p,p≤n 。

设 ker ⁡ ( T ) \ker(\pmb{T}) ker(T) 的一组基底为 { u 1 , ⋯   , u p } \{\pmb{u}_1,\cdots,\pmb{u}_p\} {u1,⋯,up} ,扩充此基底为向量空间 V \mathbb{V} V 的基底 { u 1 , ⋯   , u p , w 1 , ⋯   , w r } \{\pmb{u}_1,\cdots,\pmb{u}_p,\pmb{w}_1,\cdots,\pmb{w}_r\} {u1,⋯,up,w1,⋯,wr} 且 n = p + r n=p+r n=p+r。

向量空间 V \mathbb{V} V 中任一向量 v \pmb{v} v 可表示为基底向量的唯一线性组合:

v = a 1 u 1 + ⋯ + a p u p + b 1 w 1 + ⋯ + b r w r \pmb{v}=a_1\pmb{u}_1+\cdots+a_p\pmb{u}_p+b_1\pmb{w}_1+\cdots+b_r\pmb{w}_r v=a1u1+⋯+apup+b1w1+⋯+brwr

因为 T ( u ) = 0 \pmb{T}(\pmb{u})=\pmb0 T(u)=0 ,即 T ( u 1 ) = ⋯ = T ( u p ) = 0 \pmb{T}(\pmb{u}_1)=\cdots=\pmb{T}(\pmb{u}_p)=\pmb0 T(u1)=⋯=T(up)=0 (如下图所示)

所以:

T ( v ) = T ( a 1 u 1 + ⋯ + a p u p + b 1 w 1 + ⋯ + b r w r ) = a 1 T ( u 1 ) + ⋯ + a p T ( u p ) + b 1 T ( w 1 ) + ⋯ + b r T ( w r ) = b 1 T ( w 1 ) + ⋯ + b r T ( w r ) \begin{split}\pmb{T}(\pmb{v})&=\pmb{T}(a_1\pmb{u}_1+\cdots+a_p\pmb{u}_p+b_1\pmb{w}_1+\cdots+b_r\pmb{w}_r)\\&=a_1\pmb{T}(\pmb{u}_1)+\cdots+a_p\pmb{T}(\pmb{u}_p)+b_1\pmb{T}(\pmb{w}_1)+\cdots+b_r\pmb{T}(\pmb{w}_r)\\&=b_1\pmb{T}(\pmb{w}_1)+\cdots+b_r\pmb{T}(\pmb{w}_r)\end{split} T(v)=T(a1u1+⋯+apup+b1w1+⋯+brwr)=a1T(u1)+⋯+apT(up)+b1T(w1)+⋯+brT(wr)=b1T(w1)+⋯+brT(wr)
T ( w 1 ) , ⋯   , T ( w r ) \pmb{T}(\pmb{w}_1),\cdots,\pmb{T}(\pmb{w}_r) T(w1),⋯,T(wr) 张成了值域空间 R ( T ) R(\pmb{T}) R(T) 。

设: c 1 T ( w 1 ) + ⋯ + c r T ( w r ) = 0 c_1\pmb{T}(\pmb{w}_1)+\cdots+c_r\pmb{T}(\pmb{w}_r)=0 c1T(w1)+⋯+crT(wr)=0 ,也可以写成: T ( c 1 w 1 + ⋯ + c r w r ) = 0 \pmb{T}(c_1\pmb{w}_1+\cdots+c_r\pmb{w}_r)=0 T(c1w1+⋯+crwr)=0 ,所以 c 1 w 1 + ⋯ + c r w r c_1\pmb{w}_1+\cdots+c_r\pmb{w}_r c1w1+⋯+crwr 属于零空间 ker ⁡ ( T ) \ker(\pmb{T}) ker(T) 。

因为 { u 1 , ⋯   , u p } \{\pmb{u}_1,\cdots,\pmb{u}_p\} {u1,⋯,up} 是 ker ⁡ ( T ) \ker(\pmb{T}) ker(T) 的基底,故可以有如下表达式:

c 1 w 1 + ⋯ + c r w r = d 1 u 1 + ⋯ + d p u p c_1\pmb{w}_1+\cdots+c_r\pmb{w}_r=d_1\pmb{u}_1+\cdots+d_p\pmb{u}_p c1w1+⋯+crwr=d1u1+⋯+dpup

又因为 { u 1 , ⋯   , u p , w 1 , ⋯   , w r } \{\pmb{u}_1,\cdots,\pmb{u}_p,\pmb{w}_1,\cdots,\pmb{w}_r\} {u1,⋯,up,w1,⋯,wr} 是 V \mathbb{V} V 的基,也就是各个向量之间线性无关,所以上式中的系数都是 0 0 0 。

故 T ( w 1 ) , ⋯   , T ( w r ) \pmb{T}(\pmb{w}_1),\cdots,\pmb{T}(\pmb{w}_r) T(w1),⋯,T(wr) 是线性无关的向量集合,是 rank ( T ) \text{rank}(\pmb{T}) rank(T) 的基。

所以: r = dim ⁡ R ( T ) = rank T r=\dim R(\pmb{T})=\text{rank}\pmb{T} r=dimR(T)=rankT

由 n = p + r n=p+r n=p+r 以及前面的假设,可得:

dim ⁡ V = dim ⁡ ker ⁡ ( T ) + rank T \dim\mathbb{V}=\dim\ker(\pmb{T})+\text{rank}\pmb{T} dimV=dimker(T)+rankT

推论

  • 若 dim ⁡ V > dim ⁡ W \dim\mathbb{V}\gt\dim\mathbb{W} dimV>dimW ,则:

    dim ⁡ ker ⁡ ( T ) = dim ⁡ V − dim ⁡ R ( T ) ≥ dim ⁡ V − dim ⁡ W > 0 \dim\ker(\pmb{T})=\dim\mathbb{V}-\dim R(\pmb{T})\ge\dim\mathbb{V}-\dim\mathbb{W}\gt0 dimker(T)=dimV−dimR(T)≥dimV−dimW>0

    即存在非零向量 x ∈ V \pmb{x}\in\mathbb{V} x∈V 使得 T ( x ) = 0 \pmb{T}(\pmb{x})=\pmb{0} T(x)=0 ,或曰 T \pmb{T} T 不是一对一(因为 T ( 0 ) = 0 \pmb{T}(\pmb{0})=\pmb{0} T(0)=0 )。

  • 若 dim ⁡ V < dim ⁡ W \dim\mathbb{V}\lt\dim\mathbb{W} dimV<dimW ,则:

    dim ⁡ R ( T ) = dim ⁡ V − dim ⁡ ker ⁡ ( T ) ≤ dim ⁡ V < dim ⁡ W \dim R(\pmb{T})=\dim\mathbb{V}-\dim\ker(\pmb{T})\le\dim\mathbb{V}\lt\dim\mathbb{W} dimR(T)=dimV−dimker(T)≤dimV<dimW

    即存在非零向量 y ∈ W y\in\mathbb{W} y∈W 使得 y ∉ R ( T ) \pmb{y}\notin R(\pmb{T}) y∈/R(T) ,或曰 T \pmb{T} T 不是满射。

如果用矩阵表述:将线性变换 T : V → W \pmb{T}:\mathbb{V}\to\mathbb{W} T:V→W 用 m × n m\times n m×n 的矩阵 A \pmb{A} A 表示,其中: n = dim ⁡ V , m = dim ⁡ W n = \dim\mathbb{V}, m=\dim\mathbb{W} n=dimV,m=dimW 。

  • n > m n\gt m n>m ,则: dim ⁡ N ( A ) = n − dim ⁡ C ( A ) ≥ n − m > 0 \dim N(\pmb{A})=n-\dim C(\pmb{A})\ge n-m \gt 0 dimN(A)=n−dimC(A)≥n−m>0 。即零空间 N ( A ) N(\pmb{A}) N(A) 包含非零向量,或者说 A x = 0 \pmb{Ax}=0 Ax=0 有无穷多组解。
  • n < m n\lt m n<m ,则: dim ⁡ C ( A ) = n − dim ⁡ N ( A ) ≤ n < m \dim C(\pmb{A})=n-\dim N(\pmb{A})\le n \lt m dimC(A)=n−dimN(A)≤n<m 。即列空间 C ( A ) C(\pmb{A}) C(A) 未能充满整个 R m \mathbb{R}^m Rm (或 C m \mathbb{C}^m Cm),或者说 A x = b \pmb{Ax}=\pmb{b} Ax=b 不总是有解。

进一步理解

此定理说明了线性变换前后的空间维数变化。变换后的空间维数如果相对变换前的空间维数减少了------不可能增加,说明变换前的空间经过变换之后出现了"零输出",零空间 ker ⁡ ( T ) ∈ V \ker(\pmb{T})\in\mathbb{V} ker(T)∈V 就是产生"零输出"(即零向量)的变换前的向量集合。

"秩---零化度定理"即"维数守恒定律",

变换前的空间维数 = 零空间的维数 + 变换后的空间维数

参考文献

1\]. Gilbert Strang, The Fundamental Theorem of Linear Algebra, *American Mathematical Monthly*, 100, 1993, 848-855. \[2\]. https://ccjou.wordpress.com/2009/03/23/線性代數基本定理-一 \[3\]. https://zh.wikipedia.org/wiki/秩-零化度定理

相关推荐
Baihai_IDP几秒前
LLMs.txt:让大模型更懂你的 Web 文档
人工智能·llm·deepseek
果冻人工智能2 分钟前
人造的但不智能的
人工智能
杰克逊的日记36 分钟前
TensorFlow
人工智能·python·tensorflow
DragonnAi44 分钟前
猫咪如厕检测与分类识别系统系列【一】 功能需求分析及猫咪分类特征提取
人工智能·分类
前端加油站1 小时前
全网最精华的提示词工程总结
人工智能·llm
SmallFatMan2 小时前
智能客服系统中的意图识别与分类技术详解
大数据·人工智能·ai·数据挖掘·ai编程
爱吃猫的鱼ouou2 小时前
(八)lerobot开源项目扩展so100的仿真操控(操作记录)
人工智能·ubuntu·机器人·mujoco
大神薯条老师3 小时前
Python高级爬虫之js逆向+安卓逆向1.3节:Python数据类型
爬虫·python·深度学习·机器学习·数据分析·网络爬虫
AI街潜水的八角4 小时前
深度学习图像分类数据集—枣子水果成熟度分类
人工智能·深度学习·分类
亿信华辰软件5 小时前
大模型重构数据治理新范式:亿信华辰“AI+睿治“的六大智能化突破
人工智能·大模型·数据治理