注:本文为 "线性代数基础 " 相关合辑。
略作重排,未作全校。
如有内容异常,请看原文。
线性代数的本质(1)------基底、向量、线性变换、逆阵、行列式
野指针小李于 2020-08-13 16:34:45 发布
零、基底
在展开后续内容之前,需首先引入"基底"(base vector,又称基向量)的概念。基底对于从几何角度理解线性代数的本质具有重要启示意义,其定义为:张成该空间的一个线性无关向量的集合。对该定义的解读如下:
- 张成:若要张成一个空间,向量的个数需至少大于等于空间的维数。例如,2 个向量无法张成 3 维空间。
- 空间:此处的空间可指 0 维(点)、1 维(线)、2 维(平面)、3 维(空间)及更高维(超平面)。
- 线性无关:从代数角度定义,线性无关意味着任意一个向量都无法由其他向量线性表示,即向量集合中不存在冗余向量。
结合上述解读可知,基底的数量等于空间的维数。本文以 2 维空间为例进行分析,读者可据此自行推导至高维空间。
通常,我们选取 x x x 轴正方向的单位向量和 y y y 轴正方向的单位向量作为 2 维空间的基底,对应的矩阵可表示为 np.mat("1 0; 0 1")
。

实际上,只要向量满足线性无关的条件,均可作为基底,上述单位向量基底是最常用的一种;对于 3 维空间,通常会额外在 z z z 轴正方向选取一个单位向量作为基底。

注:
- 易混淆"基底"与"基础解系"的概念,二者的关系为:基础解系是解空间的基底。
- 若基底向量的相对位置(如特定图示中蓝色线条与红色线条的左右顺序)发生颠倒(如变为上下或前后顺序),则表明空间发生翻转。
- 基底向量均为从原点出发的向量。
一、向量与线性变换
1. 向量
在线性代数中,向量是具有方向、长度且起点始于原点的线段。线性代数的核心运算围绕向量的加法与数乘展开,具体法则如下:
- 加法 :
( a b ) + ( c d ) = ( a + c b + d ) \begin{pmatrix} a \\ b \end{pmatrix} + \begin{pmatrix} c \\ d \end{pmatrix} = \begin{pmatrix} a + c \\ b + d \end{pmatrix} (ab)+(cd)=(a+cb+d) - 数乘 :
c ⋅ ( a b ) = ( c ⋅ a c ⋅ b ) c \cdot \begin{pmatrix} a \\ b \end{pmatrix} = \begin{pmatrix} c \cdot a \\ c \cdot b \end{pmatrix} c⋅(ab)=(c⋅ac⋅b)
结合基底概念分析向量的加法与数乘(以单位向量基底为例):
- 对于加法运算 ( 2 1 ) + ( 1 3 ) = ( 3 4 ) \begin{pmatrix} 2 \\ 1 \end{pmatrix} + \begin{pmatrix} 1 \\ 3 \end{pmatrix} = \begin{pmatrix} 3 \\ 4 \end{pmatrix} (21)+(13)=(34):
向量 ( 2 1 ) \begin{pmatrix} 2 \\ 1 \end{pmatrix} (21) 可表示为 x x x 轴基底的 2 倍与 y y y 轴基底的 1 倍之和,向量 ( 1 3 ) \begin{pmatrix} 1 \\ 3 \end{pmatrix} (13) 可表示为 x x x 轴基底的 1 倍与 y y y 轴基底的 3 倍之和;相加后得到的向量 ( 3 4 ) \begin{pmatrix} 3 \\ 4 \end{pmatrix} (34),本质是 x x x 轴方向基底倍数累加(2 + 1)与 y y y 轴方向基底倍数累加(1 + 3)的结果。

- 对于数乘运算 2 ⋅ ( 1 2 ) = ( 2 4 ) 2 \cdot \begin{pmatrix} 1 \\ 2 \end{pmatrix} = \begin{pmatrix} 2 \\ 4 \end{pmatrix} 2⋅(12)=(24):
数乘的几何意义是将原向量沿其方向伸长(数乘系数大于 1)或收缩(数乘系数介于 0 与 1 之间),此处系数为 2,即原向量长度变为原来的 2 倍。

由上述运算规律可得出结论:基底可表示空间中的所有向量 。以单位向量基底为例,2 维平面内任意向量均可分解为该向量在 x x x 轴上的投影( x x x 轴基底的某一倍数)与在 y y y 轴上的投影( y y y 轴基底的某一倍数)之和;即便选取其他线性无关向量作为基底,仍可通过投影的角度表示空间中所有向量,因此上述结论成立。
2. 线性变换
线性变换可理解为一个"函数",其输入与输出均为向量,即向量经过线性变换后映射为另一个向量。线性变换需满足以下两个核心条件:
- 变换后原点位置保持不变;
- 变换后空间中的网格保持平行性与等间距性。
对条件 2 的补充说明:
- 平行性 :例如,变换前平行的直线(如 x = 1 x = 1 x=1 与 x = 2 x = 2 x=2),变换后仍保持平行;
- 等间距性 :例如,原坐标轴以 1 为单位间距,若变换后间距缩小为原来的 1/2,则变换后的第一个间距应为 0 ∼ 0.5 0 \sim 0.5 0∼0.5,第二个间距应为 0.5 ∼ 1 0.5 \sim 1 0.5∼1,而非 0 ∼ 0.5 0 \sim 0.5 0∼0.5 与 0.5 ∼ 2 0.5 \sim 2 0.5∼2。
由线性变换的性质可推出:只需记录基底变换后的位置,即可确定整个空间的变换情况。这是因为空间中的所有向量均可由基底表示,基底的线性变换会带动整个空间同步变换;且变换后的基底仍能表示空间中的所有向量(仅基底本身发生改变)。
从几何角度理解"线性":固定某一向量,对另一(组)向量进行伸长或收缩操作,最终形成的轨迹为直线(2 维空间)、平面(3 维空间)或超平面(高维空间)。例如,固定向量 ( 1 0 ) \begin{pmatrix} 1 \\ 0 \end{pmatrix} (10),对向量 ( 0 1 ) \begin{pmatrix} 0 \\ 1 \end{pmatrix} (01) 进行伸缩操作,最终轨迹为直线 x = 1 x = 1 x=1。

2.1 矩阵乘向量
矩阵是描述线性变换的工具,矩阵的每一列可看作线性变换后基底的位置 ,因此矩阵本质是线性变换后基底的集合;矩阵与向量的乘法,则表示该线性变换对目标向量的作用。以具体运算为例:
( 1 1 0 1 ) ⋅ ( 1 2 ) = ( 3 2 ) \begin{pmatrix} 1 & 1 \\ 0 & 1 \end{pmatrix} \cdot \begin{pmatrix} 1 \\ 2 \end{pmatrix} = \begin{pmatrix} 3 \\ 2 \end{pmatrix} (1011)⋅(12)=(32)

对该运算的几何解读:
- 矩阵
np.mat("1 1; 0 1")
对应的线性变换中, x x x 轴基底 ( 1 0 ) \begin{pmatrix} 1 \\ 0 \end{pmatrix} (10) 位置不变, y y y 轴基底变换为 ( 1 1 ) \begin{pmatrix} 1 \\ 1 \end{pmatrix} (11); - 向量 ( 1 2 ) \begin{pmatrix} 1 \\ 2 \end{pmatrix} (12) 的 x x x 轴分量受 x x x 轴基底变换影响,贡献为 1 ⋅ ( 1 0 ) 1 \cdot \begin{pmatrix} 1 \\ 0 \end{pmatrix} 1⋅(10);
- 向量的 y y y 轴分量受 y y y 轴基底变换影响,贡献为 2 ⋅ ( 1 1 ) 2 \cdot \begin{pmatrix} 1 \\ 1 \end{pmatrix} 2⋅(11);
- 两部分贡献相加,即 ( 1 0 ) + ( 2 2 ) = ( 3 2 ) \begin{pmatrix} 1 \\ 0 \end{pmatrix} + \begin{pmatrix} 2 \\ 2 \end{pmatrix} = \begin{pmatrix} 3 \\ 2 \end{pmatrix} (10)+(22)=(32),得到最终结果。
矩阵与向量乘法的一般公式可表示为:
( a c b d ) ⋅ ( x y ) = ( a x + c y b x + d y ) = x ⋅ ( a b ) + y ⋅ ( c d ) \begin{pmatrix} a & c \\ b & d \end{pmatrix} \cdot \begin{pmatrix} x \\ y \end{pmatrix} = \begin{pmatrix} a x + c y \\ b x + d y \end{pmatrix} = x \cdot \begin{pmatrix} a \\ b \end{pmatrix} + y \cdot \begin{pmatrix} c \\ d \end{pmatrix} (abcd)⋅(xy)=(ax+cybx+dy)=x⋅(ab)+y⋅(cd)
综上,矩阵与向量的乘法本质是:基向量经线性变换后,目标向量按基底的新位置进行线性组合。
2.2 矩阵乘矩阵
由于单个矩阵对应一个线性变换,因此矩阵乘矩阵表示两个线性变换的相继作用 ,最终得到的矩阵可看作这两个线性变换的"复合变换"(即一步完成两次变换的操作)。以具体运算为例:
( 0 2 1 0 ) ⋅ ( 1 − 2 1 0 ) = ( 2 0 1 − 2 ) \begin{pmatrix} 0 & 2 \\ 1 & 0 \end{pmatrix} \cdot \begin{pmatrix} 1 & -2 \\ 1 & 0 \end{pmatrix} = \begin{pmatrix} 2 & 0 \\ 1 & -2 \end{pmatrix} (0120)⋅(11−20)=(210−2)
注 :矩阵乘法需从右向左解读,上述运算表示向量先经过矩阵 np.mat("1 -2; 1 0")
对应的线性变换,再经过矩阵 np.mat("0 2; 1 0")
对应的线性变换。
对该运算的几何解读:
- 分析 x x x 轴基底的变换: x x x 轴基底 ( 1 0 ) \begin{pmatrix} 1 \\ 0 \end{pmatrix} (10) 先经第一个线性变换映射为 ( 1 1 ) \begin{pmatrix} 1 \\ 1 \end{pmatrix} (11),再将 ( 1 1 ) \begin{pmatrix} 1 \\ 1 \end{pmatrix} (11) 作为向量,经第二个线性变换(矩阵乘向量运算)映射为 ( 2 1 ) \begin{pmatrix} 2 \\ 1 \end{pmatrix} (21);
- 分析 y y y 轴基底的变换: y y y 轴基底 ( 0 1 ) \begin{pmatrix} 0 \\ 1 \end{pmatrix} (01) 先经第一个线性变换映射为 ( − 2 0 ) \begin{pmatrix} -2 \\ 0 \end{pmatrix} (−20),再经第二个线性变换映射为 ( 0 − 2 ) \begin{pmatrix} 0 \\ -2 \end{pmatrix} (0−2);
- 复合变换的矩阵列向量即为变换后基底的位置,因此最终矩阵为 ( 2 0 1 − 2 ) \begin{pmatrix} 2 & 0 \\ 1 & -2 \end{pmatrix} (210−2)。
矩阵与矩阵乘法的一般公式可表示为:
( a c b d ) ⋅ ( e g f h ) = ( a e + c f a g + c h b e + d f b g + d h ) = ( e ( a b ) + f ( c d ) g ( a b ) + h ( c d ) ) \begin{pmatrix} a & c \\ b & d \end{pmatrix} \cdot \begin{pmatrix} e & g \\ f & h \end{pmatrix} = \begin{pmatrix} a e + c f & a g + c h \\ b e + d f & b g + d h \end{pmatrix} =\begin{pmatrix} e \binom{a}{b} + f\binom{c}{d} & g \binom{a}{b} + h \binom{c}{d} \end{pmatrix} (abcd)⋅(efgh)=(ae+cfbe+dfag+chbg+dh)=(e(ba)+f(dc)g(ba)+h(dc))
其本质是:将右侧矩阵的每一列(看作向量)经左侧矩阵对应的线性变换后,得到的向量作为左侧矩阵与右侧矩阵乘积的列向量。
2.3 补充说明:矩阵
上述内容给出了矩阵的基础理解方式,矩阵的核心功能是:给定矩阵 A A A,则确定了从一个向量空间到另一个向量空间的线性映射("映射"也可称为"变换")。
具体解读:
- 对于 2×2 矩阵,其第一列对应 x x x 轴基底经线性变换后的位置,第二列对应 y y y 轴基底经线性变换后的位置;该矩阵描述的线性变换即为整个空间的变换规则,因此线性代数可理解为"对空间的操控";
- 矩阵乘向量:表示目标向量在矩阵对应的空间变换下的映射结果;
- 矩阵乘矩阵:表示两个空间变换的复合(相继作用)。
二、逆矩阵
1. 数值角度的解读
矩阵运算中不存在"除法",逆矩阵的作用相当于在矩阵运算中表示"除法"的意义。类比数的运算(若 x ≠ 0 x \neq 0 x=0,则 x ⋅ x − 1 = 1 x \cdot x^{-1} = 1 x⋅x−1=1),逆矩阵满足:若矩阵 A A A 可逆,则 A − 1 ⋅ A = E A^{-1} \cdot A = E A−1⋅A=E(其中 E E E 为单位矩阵)。
2. 几何角度的解读
若向量 v ⃗ \vec{v} v 经矩阵 A A A 对应的线性变换后映射为向量 w ⃗ \vec{w} w (即 A ⋅ v ⃗ = w ⃗ A \cdot \vec{v} = \vec{w} A⋅v =w ),则逆矩阵 A − 1 A^{-1} A−1 对应的线性变换可将 w ⃗ \vec{w} w 映射回 v ⃗ \vec{v} v (即 A − 1 ⋅ w ⃗ = v ⃗ A^{-1} \cdot \vec{w} = \vec{v} A−1⋅w =v )。因此,逆矩阵的几何意义是"逆转线性变换"。
三、行列式
1. 行列式的几何意义
线性变换会改变空间的"体积"(2 维空间中为面积,3 维空间中为体积,高维空间中为超体积),而行列式的几何意义是:线性变换改变空间体积的比例。

例如,若 x x x 轴基底经线性变换后伸长为原来的 2 倍, y y y 轴基底伸长为原来的 3 倍,则 2 维空间中任意图形的面积会变为原来的 2 × 3 = 6 2 \times 3 = 6 2×3=6 倍,而该线性变换对应的矩阵(如 ( 2 0 0 3 ) \begin{pmatrix} 2 & 0 \\ 0 & 3 \end{pmatrix} (2003))的行列式值恰好为 6。
2. 行列式公式的推导(以 2 阶行列式为例)
2 阶矩阵 A = ( a c b d ) A = \begin{pmatrix} a & c \\ b & d \end{pmatrix} A=(abcd) 的行列式公式为:
det ( A ) = a d − b c \det(A) = a d - b c det(A)=ad−bc

从几何角度推导该公式:
- 设 x x x 轴基底经线性变换后变为向量 u ⃗ = ( a b ) \vec{u} = \begin{pmatrix} a \\ b \end{pmatrix} u =(ab), y y y 轴基底变为向量 v ⃗ = ( c d ) \vec{v} = \begin{pmatrix} c \\ d \end{pmatrix} v =(cd);
- 以 u ⃗ \vec{u} u 和 v ⃗ \vec{v} v 为邻边构建平行四边形,该平行四边形的面积即为行列式的值;
- 构建以 a + c a + c a+c 为长、 b + d b + d b+d 为宽的长方形,其面积为 ( a + c ) ( b + d ) (a + c)(b + d) (a+c)(b+d);
- 该长方形可分解为目标平行四边形与 4 个直角三角形、1 个矩形(冗余区域),冗余区域的总面积为 2 × 1 2 a b + 2 × 1 2 c d + b c = a b + c d + b c 2 \times \frac{1}{2} a b + 2 \times \frac{1}{2} c d + b c = a b + c d + b c 2×21ab+2×21cd+bc=ab+cd+bc;
- 目标平行四边形的面积 = 长方形面积 - 冗余区域面积,即:
( a + c ) ( b + d ) − ( a b + c d + b c ) = a d − b c (a + c)(b + d) - (a b + c d + b c) = a d - b c (a+c)(b+d)−(ab+cd+bc)=ad−bc
因此,行列式公式得证。
3. 行列式为 0 的意义
3.1 空间降维
若矩阵的行列式为 0,则线性变换改变空间体积的比例为 0,表明空间发生"压缩",即空间维数降低(降维),也意味着矩阵的列向量存在冗余(线性相关)。

例如,2 维空间中,若两个基底向量经线性变换后共线(如 u ⃗ = ( 1 2 ) \vec{u} = \begin{pmatrix} 1 \\ 2 \end{pmatrix} u =(12), v ⃗ = ( − 2 − 4 ) \vec{v} = \begin{pmatrix} -2 \\ -4 \end{pmatrix} v =(−2−4)),则这两个向量无法张成 2 维平面,仅能张成 1 维直线,空间从 2 维降为 1 维,此时矩阵的行列式为 0。
由此可串联逻辑关系:
线性相关 ⟺ \iff ⟺ 向量冗余 ⟺ \iff ⟺ 向量共线/共面/共空间 ⟺ \iff ⟺ 空间降维 ⟺ \iff ⟺ 行列式为 0
线性无关 ⟺ \iff ⟺ 向量无冗余 ⟺ \iff ⟺ 任意向量不可由其他向量表示 ⟺ \iff ⟺ 空间维数不变 ⟺ \iff ⟺ 行列式不为 0
注:非方阵(如 2×3 矩阵、3×2 矩阵)不存在行列式,因为非方阵对应的线性变换无法定义"空间体积的变化比例"(如 2×3 矩阵将 3 维向量映射为 2 维向量,无法衡量 3 维体积到 2 维面积的变化比例)。
3.2 矩阵不可逆
行列式为 0 的矩阵不存在逆矩阵,原因如下:
- 数值角度:逆矩阵满足 A − 1 ⋅ A = E A^{-1} \cdot A = E A−1⋅A=E,两边取行列式得 det ( A − 1 ) ⋅ det ( A ) = det ( E ) = 1 \det(A^{-1}) \cdot \det(A) = \det(E) = 1 det(A−1)⋅det(A)=det(E)=1;若 det ( A ) = 0 \det(A) = 0 det(A)=0,则等式左边为 0,右边为 1,矛盾,因此逆矩阵不存在;
- 几何角度:行列式为 0 对应空间降维,降维后的空间无法通过线性变换"升维"还原为原空间(例如,1 维直线无法通过线性变换还原为 2 维平面),因此逆转该线性变换的矩阵(逆矩阵)不存在。
四、总结
本文核心内容可归纳为以下 12 点:
- 基底是张成该空间的一个线性无关向量的集合;
- 向量是具有方向、长度且起点始于原点的线段;
- 线性代数的核心运算法则为向量的加法与数乘;
- 基底可表示空间中的所有向量;
- 线性变换需满足"原点不变"与"网格平行且等间距",矩阵乘向量、矩阵乘矩阵的公式均基于线性变换的几何意义推导得出;
- 矩阵本质是从一个向量空间到另一个向量空间的线性映射;
- 数值上,逆矩阵的作用是表示矩阵运算中的"除法",满足 A − 1 ⋅ A = E A^{-1} \cdot A = E A−1⋅A=E;几何上,逆矩阵的意义是逆转原矩阵对应的线性变换;
- 行列式的几何意义是线性变换改变空间面积(或体积、超体积)的比例;
- 2 阶行列式公式 det ( a c b d ) = a d − b c \det\left(\begin{array}{ll}a & c \\ b & d\end{array}\right)=a d - b c det(abcd)=ad−bc 可通过"长方形面积减去冗余区域面积"的几何方法推导得出;
- 线性相关、向量冗余、空间降维、行列式为 0、矩阵不可逆存在等价关系,即:线性相关 = 有冗余 = 两个或多个向量共线(共面、共空间、共超平面) = 空间变化率为 0 = 行列式为 0 = 没有逆阵;
- 线性无关、向量无冗余、空间维数不变、行列式非零、矩阵可逆存在等价关系,即:线性无关 = 没有冗余 = 任何一个向量都不会被其他向量表示 = 空间变化率不为 0 = 行列式不为 0 = 有逆阵;
- 非方阵既没有行列式,也没有逆阵,因为非方阵无法定义"空间体积变化比例",且其对应的线性变换无法逆转。
线性代数的本质(2)------线性相关/无关、秩、伴随矩阵、线性方程组、核、像
野指针小李于 2020-08-16 16:09:37 发布
一、线性相关与线性无关
线性相关与线性无关是描述向量组内在关系的核心概念,二者的定义与几何意义如下:
1. 线性相关
定义:若向量组中存在至少一个向量,可由该组中其他向量线性表示,则称该向量组线性相关。
几何意义:线性相关的向量组无法张成更高维的空间,表现为向量"共线""共面"或"共空间"(高维空间中为共超平面)。
-
2 维空间中的典型案例:若向量 α ⃗ = ( 1 2 ) \vec{\alpha} = \begin{pmatrix} 1 \\ 2 \end{pmatrix} α =(12),向量 β ⃗ = ( − 2 − 4 ) \vec{\beta} = \begin{pmatrix} -2 \\ -4 \end{pmatrix} β =(−2−4),则 β ⃗ = − 2 α ⃗ \vec{\beta} = -2 \vec{\alpha} β =−2α ,即两向量共线,无法张成 2 维平面,二者线性相关;
-
3 维空间中的典型案例:若向量 α ⃗ = ( 1 0 0 ) \vec{\alpha} = \begin{pmatrix} 1 \\ 0 \\ 0 \end{pmatrix} α = 100 , β ⃗ = ( 0 1 0 ) \vec{\beta} = \begin{pmatrix} 0 \\ 1 \\ 0 \end{pmatrix} β = 010 , γ ⃗ = ( 1 1 0 ) \vec{\gamma} = \begin{pmatrix} 1 \\ 1 \\ 0 \end{pmatrix} γ = 110 ,则 γ ⃗ = α ⃗ + β ⃗ \vec{\gamma} = \vec{\alpha} + \vec{\beta} γ =α +β ,即三向量共面,无法张成 3 维空间,三者线性相关。
2. 线性无关
定义:若向量组中任意一个向量都无法由该组中其他向量线性表示,则称该向量组线性无关。
几何意义 :线性无关的向量组可张成对应维数的空间,向量间不存在"冗余"。例如,2 维空间中,向量 α ⃗ = ( 1 0 ) \vec{\alpha} = \begin{pmatrix} 1 \\ 0 \end{pmatrix} α =(10) 与 β ⃗ = ( 0 1 ) \vec{\beta} = \begin{pmatrix} 0 \\ 1 \end{pmatrix} β =(01) 线性无关,二者可张成完整的 2 维平面;3 维空间中,向量 α ⃗ = ( 1 0 0 ) \vec{\alpha} = \begin{pmatrix} 1 \\ 0 \\ 0 \end{pmatrix} α = 100 、 β ⃗ = ( 0 1 0 ) \vec{\beta} = \begin{pmatrix} 0 \\ 1 \\ 0 \end{pmatrix} β = 010 、 γ ⃗ = ( 0 0 1 ) \vec{\gamma} = \begin{pmatrix} 0 \\ 0 \\ 1 \end{pmatrix} γ = 001 线性无关,三者可张成完整的 3 维空间。
二、秩
秩(rank)是衡量矩阵或向量组"有效维数"的核心指标,其本质是线性变换后空间的维数,也可理解为"向量组能张成的空间的维数"。
1. 满秩
定义 :若矩阵的秩等于其行数与列数中的较小值(即 r ( A ) = min ( m , n ) r(A) = \min(m, n) r(A)=min(m,n),其中 A A A 为 m × n m \times n m×n 矩阵),则称该矩阵满秩。
性质:满秩矩阵的列向量组(或行向量组)线性无关,无冗余向量,可张成对应维数的空间。例如:
- 对于 n × n n \times n n×n 方阵,满秩意味着 r ( A ) = n r(A) = n r(A)=n,其列向量组线性无关,可张成 n n n 维空间,此时每个列向量均可看作 n n n 维空间的一个基底;
- 对于 2 × 3 2 \times 3 2×3 矩阵,满秩意味着 r ( A ) = 2 r(A) = 2 r(A)=2,其列向量组虽有 3 个向量,但线性无关的向量仅有 2 个,可张成 2 维平面。
2. 降秩
定义 :若矩阵的秩小于其行数与列数中的较小值(即 r ( A ) < min ( m , n ) r(A) < \min(m, n) r(A)<min(m,n)),则称该矩阵降秩。
性质:降秩矩阵的列向量组(或行向量组)线性相关,存在冗余向量,无法张成对应维数的空间。结合矩阵形状,降秩可分为以下两类情况:
2.1 行数大于列数( m > n m > n m>n)
以 3 × 2 3 \times 2 3×2 矩阵为例,若其列向量为 α ⃗ = ( 1 2 0 ) \vec{\alpha} = \begin{pmatrix} 1 \\ 2 \\ 0 \end{pmatrix} α = 120 , β ⃗ = ( 3 4 0 ) \vec{\beta} = \begin{pmatrix} 3 \\ 4 \\ 0 \end{pmatrix} β = 340 ,则矩阵的秩 r ( A ) = 2 r(A) = 2 r(A)=2(小于行数 3),原因如下:
- 几何角度:两向量的 z z z 轴分量均为 0,始终位于 x-y 平面内,无法张成 3 维空间,有效维数为 2;
- 基底角度:两向量均可由 x x x 轴、 y y y 轴的基底线性表示,无需 z z z 轴基底,因此张成的空间维数为 2。
2.2 列数大于行数( n > m n > m n>m)
以 2 × 3 2 \times 3 2×3 矩阵为例,若其列向量为 α ⃗ = ( 1 0 ) \vec{\alpha} = \begin{pmatrix} 1 \\ 0 \end{pmatrix} α =(10), β ⃗ = ( 0 1 ) \vec{\beta} = \begin{pmatrix} 0 \\ 1 \end{pmatrix} β =(01), γ ⃗ = ( 1 1 ) \vec{\gamma} = \begin{pmatrix} 1 \\ 1 \end{pmatrix} γ =(11),则矩阵的秩 r ( A ) = 2 r(A) = 2 r(A)=2(小于列数 3),原因如下:
- 几何角度:三向量均位于 2 维平面内,新增的向量 γ ⃗ \vec{\gamma} γ 可由 α ⃗ \vec{\alpha} α 与 β ⃗ \vec{\beta} β 线性表示,未扩展空间维数,有效维数仍为 2;
- 基底角度:平面内的任意向量均可由两个线性无关的基底(如 α ⃗ \vec{\alpha} α 与 β ⃗ \vec{\beta} β )表示,无需第三个基底,因此张成的空间维数为 2。
3. 秩与线性相关、行列式、逆矩阵的关系
结合矩阵形状,秩与其他概念的关系可归纳为:
- 对于 n × n n \times n n×n 方阵:
- 满秩 ⟺ \iff ⟺ 列向量组线性无关 ⟺ \iff ⟺ 无冗余向量 ⟺ \iff ⟺ 行列式不为 0 ⟺ \iff ⟺ 矩阵可逆;
- 降秩 ⟺ \iff ⟺ 列向量组线性相关 ⟺ \iff ⟺ 有冗余向量 ⟺ \iff ⟺ 行列式为 0 ⟺ \iff ⟺ 矩阵不可逆;
- 对于非方阵( m × n m \times n m×n, m ≠ n m \neq n m=n):
- 一定降秩 ⟺ \iff ⟺ 无法张成对应维数的空间(如 m > n m > n m>n 时无法张成 m m m 维空间, n > m n > m n>m 时无法张成 n n n 维空间) ⟺ \iff ⟺ 无行列式 ⟺ \iff ⟺ 无逆矩阵。
三、伴随矩阵
伴随矩阵是用于求解逆矩阵的工具,其核心关联公式与性质如下:
1. 定义与核心公式
定义 :设 A A A 为 n n n 阶方阵,将 A A A 中每个元素 a i j a_{ij} aij 替换为其对应的代数余子式 A i j A_{ij} Aij,再对所得矩阵进行转置,得到的矩阵称为 A A A 的伴随矩阵,记为 A ∗ A^* A∗。
核心公式 :方阵 A A A 与其伴随矩阵 A ∗ A^* A∗ 满足 A ⋅ A ∗ = A ∗ ⋅ A = ∣ A ∣ ⋅ E A \cdot A^* = A^* \cdot A = |A| \cdot E A⋅A∗=A∗⋅A=∣A∣⋅E(其中 ∣ A ∣ |A| ∣A∣ 为 A A A 的行列式, E E E 为单位矩阵)。由此可推出逆矩阵的求解公式:
A − 1 = 1 ∣ A ∣ A ∗ ( ∣ A ∣ ≠ 0 ) A^{-1} = \frac{1}{|A|} A^* \quad (|A| \neq 0) A−1=∣A∣1A∗(∣A∣=0)
2. 伴随矩阵的作用与理解
伴随矩阵的本质是"实现逆矩阵求解的工具":当 ∣ A ∣ ≠ 0 |A| \neq 0 ∣A∣=0 时,通过伴随矩阵可直接计算逆矩阵,无需反复进行初等变换。从线性变换角度看,伴随矩阵的作用是"辅助复合线性变换"------使得原矩阵对应的线性变换与伴随矩阵对应的线性变换复合后,等价于"行列式倍的单位变换"(即 ∣ A ∣ ⋅ E |A| \cdot E ∣A∣⋅E 对应的变换),从而间接实现线性变换的逆转。
3. 逆矩阵的另一种求解方法:初等变换
除伴随矩阵法外,初等行变换也可用于求解逆矩阵,具体步骤为:
- 构造增广矩阵 ( A ∣ E ) (A | E) (A∣E)(左侧为原矩阵 A A A,右侧为同阶单位矩阵 E E E);
- 对增广矩阵进行初等行变换,将左侧的 A A A 化为单位矩阵 E E E;
- 此时右侧的 E E E 会同步化为 A − 1 A^{-1} A−1,即 ( A ∣ E ) → 初等行变换 ( E ∣ A − 1 ) (A | E) \xrightarrow{\text{初等行变换}} (E | A^{-1}) (A∣E)初等行变换 (E∣A−1)。
从线性变换角度看,初等行变换的过程是"逐步逆转原矩阵对应的线性变换"------通过一系列基本变换(如交换行、倍乘行、行相加),将原变换还原为单位变换,最终得到的右侧矩阵即为逆变换对应的矩阵(逆矩阵)。
四、线性方程组
线性方程组的核心是研究 A x ⃗ = b ⃗ A \vec{x} = \vec{b} Ax =b (非齐次)与 A x ⃗ = 0 ⃗ A \vec{x} = \vec{0} Ax =0 (齐次)的解的结构,需结合"核""像"与"维数定理"进行分析。
1. 前置概念
在讨论解的结构前,需明确以下三个核心概念:
- 核(kernel) :又称零空间,是指在线性变换 A A A 作用下被映射为零向量的所有向量的集合,即 Ker ( A ) = { x ⃗ ∣ A x ⃗ = 0 ⃗ } \text{Ker}(A) = \{ \vec{x} \mid A \vec{x} = \vec{0} \} Ker(A)={x ∣Ax =0 };
- 像(image) :又称列空间,是指在线性变换 A A A 作用下所有可能的映射结果的集合,即 Im ( A ) = { A x ⃗ ∣ x ⃗ ∈ R n } \text{Im}(A) = \{ A \vec{x} \mid \vec{x} \in \mathbb{R}^n \} Im(A)={Ax ∣x ∈Rn};
- 维数定理 :核的维数与像的维数之和等于原空间的维数,即 dim ( Ker ( A ) ) + dim ( Im ( A ) ) = n \dim(\text{Ker}(A)) + \dim(\text{Im}(A)) = n dim(Ker(A))+dim(Im(A))=n(其中 n n n 为向量 x ⃗ \vec{x} x 的维数)。
2. 非齐次线性方程组( A x ⃗ = b ⃗ A \vec{x} = \vec{b} Ax =b )
非齐次线性方程组的解的存在性与结构由"系数矩阵 A A A 的秩"与"增广矩阵 ( A ∣ b ⃗ ) (A | \vec{b}) (A∣b ) 的秩"共同决定(增广矩阵是在系数矩阵右侧增加一列 b ⃗ \vec{b} b 得到的矩阵)。
2.1 解的三种情况
- 无解 :当 r ( A ) ≠ r ( A ∣ b ⃗ ) r(A) \neq r(A | \vec{b}) r(A)=r(A∣b ) 时,方程组无解;
- 有唯一解 :当 r ( A ) = r ( A ∣ b ⃗ ) = n r(A) = r(A | \vec{b}) = n r(A)=r(A∣b )=n( n n n 为未知数个数)时,方程组有唯一解;
- 有无穷解 :当 r ( A ) = r ( A ∣ b ⃗ ) < n r(A) = r(A | \vec{b}) < n r(A)=r(A∣b )<n 时,方程组有无穷解。
2.2 各情况的几何与数值解读
2.2.1 无解
- 数值角度 :若 r ( A ) < r ( A ∣ b ⃗ ) r(A) < r(A | \vec{b}) r(A)<r(A∣b ),则增广矩阵经初等行变换后会出现"全零行对应非零常数"的情况,例如:
( A ∣ b ⃗ ) → 初等行变换 ( 1 2 7 1 3 5 9 2 0 0 0 3 ) (A | \vec{b}) \xrightarrow{\text{初等行变换}} \begin{pmatrix} 1 & 2 & 7 & 1 \\ 3 & 5 & 9 & 2 \\ 0 & 0 & 0 & 3 \end{pmatrix} (A∣b )初等行变换 130250790123
其中最后一行对应方程 0 ⋅ x 1 + 0 ⋅ x 2 + 0 ⋅ x 3 = 3 0 \cdot x_1 + 0 \cdot x_2 + 0 \cdot x_3 = 3 0⋅x1+0⋅x2+0⋅x3=3,显然矛盾,因此无解; - 几何角度 :系数矩阵 A A A 的列向量张成的空间(像空间)为低维空间(如 2 维平面),而 b ⃗ \vec{b} b 不在该像空间内(如在 3 维空间中位于平面外),无法通过线性组合得到 b ⃗ \vec{b} b ,因此无解。
2.2.2 有唯一解
- 数值角度 : r ( A ) = r ( A ∣ b ⃗ ) = n r(A) = r(A | \vec{b}) = n r(A)=r(A∣b )=n 意味着未知数个数等于独立方程个数,方程组不存在冗余,因此解唯一;
- 几何角度 :系数矩阵 A A A 满秩,其对应的线性变换是"可逆变换"(无降维),每个 b ⃗ \vec{b} b 仅对应唯一的 x ⃗ \vec{x} x ,因此解唯一。
2.2.3 有无穷解
- 数值角度 : r ( A ) = r ( A ∣ b ⃗ ) < n r(A) = r(A | \vec{b}) < n r(A)=r(A∣b )<n 意味着未知数个数大于独立方程个数,存在自由变量(可任意取值的变量),因此解无穷;
- 几何角度 :系数矩阵 A A A 降维,其对应的线性变换存在"核空间"------无穷多个向量被映射为同一向量,因此 b ⃗ \vec{b} b 对应的 x ⃗ \vec{x} x 有无穷多个。
3. 齐次线性方程组( A x ⃗ = 0 ⃗ A \vec{x} = \vec{0} Ax =0 )
齐次线性方程组是非齐次线性方程组的特例( b ⃗ = 0 ⃗ \vec{b} = \vec{0} b =0 ),其解的结构仅由系数矩阵 A A A 的秩决定,且始终存在零解 x ⃗ = 0 ⃗ \vec{x} = \vec{0} x =0 。
3.1 解的两种情况
- 只有零解 :当 r ( A ) = n r(A) = n r(A)=n( n n n 为未知数个数)时,方程组只有零解;
- 有非零解 :当 r ( A ) < n r(A) < n r(A)<n 时,方程组有非零解(即除零解外的其他解)。
3.2 各情况的几何与数值解读
3.2.1 只有零解
- 数值角度 : r ( A ) = n r(A) = n r(A)=n 意味着独立方程个数等于未知数个数,方程组无自由变量,仅零解满足所有方程;
- 几何角度 :系数矩阵 A A A 满秩,其对应的线性变换无降维,仅零向量被映射为零向量,因此只有零解。
3.2.2 有非零解
- 数值角度 : r ( A ) < n r(A) < n r(A)<n 意味着存在自由变量,自由变量取非零值时可得到非零解;
- 几何角度 :系数矩阵 A A A 降维,其对应的线性变换存在非零的核空间------无穷多个非零向量被映射为零向量,因此有非零解。
4. 齐次与非齐次线性方程组的关系
齐次线性方程组的解空间(核空间)是非齐次线性方程组解的结构的重要组成部分:若 x ⃗ 0 \vec{x}_0 x 0 是 A x ⃗ = b ⃗ A \vec{x} = \vec{b} Ax =b 的一个特解, x ⃗ h \vec{x}_h x h 是 A x ⃗ = 0 ⃗ A \vec{x} = \vec{0} Ax =0 的通解,则 A x ⃗ = b ⃗ A \vec{x} = \vec{b} Ax =b 的通解为 x ⃗ = x ⃗ 0 + x ⃗ h \vec{x} = \vec{x}_0 + \vec{x}_h x =x 0+x h。
这表明非齐次线性方程组的所有解可由其一个特解与对应齐次方程组的通解叠加得到,本质是齐次方程组的解空间(核空间)对特解的"平移"。
五、总结
本文围绕线性代数的核心概念展开,建立了几何直观与代数定义的关联,核心结论如下:
-
线性相关/无关:描述向量组的冗余性,线性相关意味着向量共线/共面(降维),线性无关意味着向量可张成匹配维度的空间。线性相关指向量组存在冗余(可共线、共面),线性无关指向量组无冗余(可张成对应空间),二者是描述向量组内在关系的基础。
-
秩 :向量组张成空间的维度,满秩对应无降维变换,降秩对应降维变换,满足 rank ( A ) ≤ min ( m , n ) \text{rank}(\boldsymbol{A}) \leq \min(m, n) rank(A)≤min(m,n)。秩是向量组张成空间的维数,满秩对应无冗余且矩阵可逆,降秩对应有冗余且矩阵不可逆,非方阵必降秩。
-
伴随矩阵 :辅助求解逆矩阵的工具,通过 A A ∗ = det ( A ) I \boldsymbol{A}\boldsymbol{A}^* = \det(\boldsymbol{A})\boldsymbol{I} AA∗=det(A)I 建立与行列式、逆矩阵的关联。核心公式为 A − 1 = 1 ∣ A ∣ A ∗ A^{-1} = \frac{1}{|A|}A^* A−1=∣A∣1A∗( ∣ A ∣ ≠ 0 |A| \neq 0 ∣A∣=0),也可通过初等行变换 ( A ∣ E ) → ( E ∣ A − 1 ) (A|E) \to (E|A^{-1}) (A∣E)→(E∣A−1) 求解逆矩阵。
-
线性方程组 :解的存在性由 rank ( A ) \text{rank}(\boldsymbol{A}) rank(A) 与 rank ( A ˉ ) \text{rank}(\boldsymbol{\bar{A}}) rank(Aˉ) 决定,解的结构与核空间(零空间)、列空间(像)密切相关:
- 非齐次方程组:无解( b ⃗ \vec{b} b 不在列空间)、唯一解(列空间满秩)、无穷解(列空间降秩)。
- 齐次方程组:零解(满秩)、非零解(降秩,解构成核空间)。
- 非齐次方程组解的存在性由系数矩阵与增广矩阵的秩决定,齐次方程组解的结构由系数矩阵的秩决定,二者通过核与像的概念关联。
-
核与像 :核是被压缩到原点的空间,像是变换后可达的空间,二者维度之和等于未知数个数(维数定理)。核是被映射为零向量的向量集合,像是线性变换的所有映射结果集合,维数定理 dim ( Ker ( A ) ) + dim ( Im ( A ) ) = n \dim(\text{Ker}(A)) + \dim(\text{Im}(A)) = n dim(Ker(A))+dim(Im(A))=n 是分析解结构的关键。
六、参考
1\] 3Blue1Brown.【官方双语/合集】线性代数的本质 - 系列合集\[EB/O[L\]](https://www.bilibili.com/video/BV1ys411472E),2016-10-18.
\[2\] \[日\]平冈和幸,堀玄.程序员的数学 3 线性代数\[M\].人民邮电出版社:北京,2016.3:5.
*** ** * ** ***
## via:
* 线性代数的本质(1)------基底、向量、线性变换、逆阵、行列式_线性代数基底-CSDN博客