【基础知识一】线性代数的核心:从矩阵变换到 SVD 终极奥义

第一部分:矩阵的本质与基础操作

1. 矩阵 (Matrix) 到底是什么?

在计算机里,矩阵是二维数组;但在数学几何里,矩阵代表一个**"动作""变换" (Transformation)**。

想象你面前有一个弹性的空间(比如一块无限大的橡胶布):

  • 向量 x x x:橡胶布上的一个点。
  • 矩阵 A A A:你的双手。
  • 运算 A x Ax Ax :你用双手把橡胶布进行拉伸、旋转、剪切后,那个点 x x x 跑去的新位置。

结论 :矩阵不是静止的数字表格,它是一个函数 f ( x ) = A x f(x) = Ax f(x)=Ax,它的作用是把空间变形。

2. 逆矩阵 (Inverse Matrix):数学界的 "Ctrl+Z"

既然矩阵 A A A 是一个动作(比如"向右拉伸 2 倍"),那么如果我们想撤销 这个动作,该怎么办?这就需要逆矩阵 ( A − 1 A^{-1} A−1)

  • 如果 A A A 把向量 x x x 变成了 y y y。
  • 那么 A − 1 A^{-1} A−1 就能把 y y y 变回 x x x。
  • 数学公式: A − 1 A = I A^{-1} A = I A−1A=I ( I I I 是单位矩阵,代表"什么都不做")。

为什么有的矩阵没有逆矩阵?

这就涉及到了行列式 (Determinant) 。行列式代表变换后面积(或体积)的缩放倍数

  • 如果 det ⁡ ( A ) = 0 \det(A) = 0 det(A)=0,意味着空间被压扁了(比如把二维平面压成了一条线,面积变成了 0)。
  • 降维打击是不可逆的 。一旦你把一张饼压成了一条线,信息就丢失了,你无法把它还原回原来的饼。这时, A A A 就被称为"奇异矩阵"(不可逆)。

第二部分:特征值与特征分解

3. 特征值与特征向量:混乱中的"定海神针"

当你用矩阵 A A A 对空间进行旋转或拉伸时,绝大多数向量的方向都会发生改变。但是,总有极少数特殊的向量,它们在变换中方向保持不变

这就是著名的方程:
A v = λ v A v = \lambda v Av=λv

  1. 特征向量 ( v v v, Eigenvector):这就是那些方向不变的向量。它们代表了矩阵变换的**"主轴"**。不管矩阵怎么揉捏空间,这几根轴(骨架)只是变长变短,没有转动。
  2. 特征值 ( λ \lambda λ, Eigenvalue) :既然方向没变,那变成了什么?变成了原来的 λ \lambda λ 倍。 λ \lambda λ 就是伸缩的倍数
    • λ > 1 \lambda > 1 λ>1:拉长。
    • 0 < λ < 1 0 < \lambda < 1 0<λ<1:缩短。
    • λ < 0 \lambda < 0 λ<0:反向(翻转)。

4. 两个"贵族"矩阵:对称矩阵与正交矩阵

在矩阵家族中,有两类矩阵性质极其完美,考试和工程中最常遇到。

(1) 对称矩阵 (Symmetric Matrix)

  • 定义 : A = A T A = A^T A=AT,即沿着对角线折叠,两边数字一样。
  • 性质(极其重要)
    • 特征值全是实数:它只做拉伸,不做复杂的复平面旋转。
    • 特征向量互相垂直 :这是最完美的性质。对称矩阵的特征向量天然构成了一个正交坐标系。这意味着它对空间的拉伸是沿着相互垂直的方向进行的(像拉披萨面团一样,横着拉一下,竖着拉一下)。

(2) 正交矩阵 (Orthogonal Matrix)

  • 定义 : Q T Q = I Q^T Q = I QTQ=I 或 Q − 1 = Q T Q^{-1} = Q^T Q−1=QT。它的列向量(以及行向量)都是单位向量且两两垂直。
  • 几何意义刚体运动。它代表旋转 (Rotation) 或 镜像 (Reflection)。用正交矩阵去乘一个向量,向量的长度永远不变,只有方向改变。

5. 手把手教程:如何求特征值和特征向量?

这是一套固定的三步走流程。我们要解方程 A v = λ v Av = \lambda v Av=λv,即 ( A − λ I ) v = 0 (A - \lambda I)v = 0 (A−λI)v=0。

例子 :求矩阵 A = [ 4 1 1 4 ] A = \begin{bmatrix} 4 & 1 \\ 1 & 4 \end{bmatrix} A=[4114] 的特征值和特征向量。

  • 第一步:求特征值 λ \lambda λ

    为了让方程有非零解,矩阵必须不可逆,即行列式为 0。
    det ⁡ [ 4 − λ 1 1 4 − λ ] = 0 \det \begin{bmatrix} 4-\lambda & 1 \\ 1 & 4-\lambda \end{bmatrix} = 0 det[4−λ114−λ]=0

    计算得: ( 4 − λ ) 2 − 1 = 0 ⇒ λ − 4 = ± 1 (4-\lambda)^2 - 1 = 0 \Rightarrow \lambda - 4 = \pm 1 (4−λ)2−1=0⇒λ−4=±1。

    解得:λ 1 = 3 , λ 2 = 5 \lambda_1 = 3, \quad \lambda_2 = 5 λ1=3,λ2=5

  • 第二步:求特征向量 v v v

    把 λ \lambda λ 带回方程。

    • 当 λ 1 = 3 \lambda_1 = 3 λ1=3 时,解得 x = − y x = -y x=−y,取 v 1 = [ 1 − 1 ] v_1 = \begin{bmatrix} 1 \\ -1 \end{bmatrix} v1=[1−1]。
    • 当 λ 2 = 5 \lambda_2 = 5 λ2=5 时,解得 x = y x = y x=y,取 v 2 = [ 1 1 ] v_2 = \begin{bmatrix} 1 \\ 1 \end{bmatrix} v2=[11]。
  • 第三步:验证

    观察 v 1 v_1 v1 和 v 2 v_2 v2,点积为 0,互相垂直。这也验证了 A A A 是对称矩阵的性质。


第三部分:高阶性质(迹、秩、正定性)

这些概念是你在机器学习、数据降维中一定会遇到的"隐形BOSS"。

6. 矩阵的迹 (Trace):对角线上的秘密

  • 定义:矩阵主对角线上所有元素的和。
  • 直觉与物理意义
    有一个惊人的性质:矩阵的迹 = 所有特征值的和 ( tr ( A ) = ∑ λ i \text{tr}(A) = \sum \lambda_i tr(A)=∑λi)。
    如果你把特征值看作各个轴的伸缩倍数,那么"迹"就代表了整个空间变换后的**"总伸缩量"或系统的"总能量"**。

7. 矩阵的秩 (Rank):信息的"真"维度

  • 定义:矩阵中线性无关的列向量的最大数量。

  • 直觉 :"秩"代表了矩阵变换后,空间真正剩下的维度。或者说,这个数据压缩包解压后,到底有多少**"干货"**。

  • 想象一个 3 × 3 3 \times 3 3×3 的矩阵(原本在三维空间):

    • 秩 = 3 (满秩):变换后物体还是立体的。信息没丢。
    • 秩 = 2 :变换后,立体的物体被拍扁成了一张纸(平面)。丢了一维信息。
    • 秩 = 1 :变换后,物体被压缩成了一根线。丢了两维信息。
    • 秩 = 0:物体缩成了一个点。

怎么求秩? 用高斯消元法把矩阵化成行阶梯形,数一数有几个非零行的**"主元"**。

8. 正定性 (Positive Definiteness):是碗还是马鞍?

这个概念专门用于对称矩阵,它决定了能量函数 f ( x ) = x T A x f(x) = x^T A x f(x)=xTAx 的地形形状。

  • 正定矩阵 ( λ i > 0 \lambda_i > 0 λi>0):
    • 形状:像一个**"碗"**。
    • 意义:不管往哪个方向走,能量都增加。有唯一的最低点。这是优化问题最喜欢的。
  • 半正定矩阵 ( λ i ≥ 0 \lambda_i \ge 0 λi≥0):
    • 形状:像一个平底锅或者 U 型槽。有最低点,但可能是一条线。
  • 不定矩阵 ( λ \lambda λ 有正有负):
    • 形状:像一个**"马鞍"**(或者薯片)。一个方向是上坡,另一个方向是下坡。这种点叫"鞍点",很难找最小值。

第四部分:SVD (奇异值分解) ------ 终极奥义

特征分解有个死穴:它只能处理方阵。但在现实世界(比如 1000 个用户,50 部电影),数据往往是长方形的。这时候,SVD 闪亮登场。

9. SVD 的几何直觉

核心公式 : A = U Σ V T A = U \Sigma V^T A=UΣVT

SVD 告诉我们,任何一个矩阵变换(不管多奇怪),都可以拆解为三个简单的动作:

  1. V T V^T VT (旋转):在原空间里转个身。
  2. Σ \Sigma Σ (拉伸) :沿着坐标轴拉伸或压缩。这里的拉伸倍数 σ \sigma σ 叫做**"奇异值"**。
  3. U U U (旋转):在目标空间里再转个身。

10. SVD 求解实战:三步走"作弊"指南

既然我们知道了 SVD 是 A = U Σ V T A = U \Sigma V^T A=UΣVT,那具体怎么求出这三个矩阵呢?

我们用一个**"曲线救国"**的方法(利用 A T A A^T A ATA 的对称性)。

我们要解出三个未知数:

  1. V V V:右奇异向量。
  2. Σ \Sigma Σ:奇异值。
  3. U U U:左奇异向量。
第一步:攻克 V V V 和 Σ \Sigma Σ (利用 A T A A^T A ATA)

我们虽然不能直接算 A A A,但我们可以算 A T A A^T A ATA 。 A T A A^T A ATA 一定是一个 n × n n \times n n×n 的对称方阵

  • 求 Σ \Sigma Σ :算出 A T A A^T A ATA 的特征值 λ i \lambda_i λi,开根号即得奇异值 σ i = λ i \sigma_i = \sqrt{\lambda_i} σi=λi 。(注意:要按从大到小排序)。
  • 求 V V V :算出 A T A A^T A ATA 对应的特征向量,归一化 后,就是矩阵 V V V 的列向量。
第二步:攻克 U U U (利用捷径)

理论上我们可以算 A A T A A^T AAT 来求 U U U,但那样太慢了。我们要用捷径公式
u i = 1 σ i A v i u_i = \frac{1}{\sigma_i} A v_i ui=σi1Avi

直接用矩阵 A A A 乘以刚才求出的 v i v_i vi,再除以奇异值 σ i \sigma_i σi,就得到了 U U U 的列向量。


11. 手算演示(防劝退版)

我们拿一个最简单的长方形矩阵举例:
A = [ 1 1 0 0 1 1 ] A = \begin{bmatrix} 1 & 1 \\ 0 & 0 \\ 1 & 1 \end{bmatrix} A= 101101
这是一个 3 × 2 3 \times 2 3×2 的矩阵,没法直接求特征值。

1. 攻克 V V V 和 Σ \Sigma Σ

先把 A A A 转置一下乘自己,造一个方阵出来:
A T A = [ 1 0 1 1 0 1 ] [ 1 1 0 0 1 1 ] = [ 2 2 2 2 ] A^T A = \begin{bmatrix} 1 & 0 & 1 \\ 1 & 0 & 1 \end{bmatrix} \begin{bmatrix} 1 & 1 \\ 0 & 0 \\ 1 & 1 \end{bmatrix} = \begin{bmatrix} 2 & 2 \\ 2 & 2 \end{bmatrix} ATA=[110011] 101101 =[2222]

现在问题变成了:求矩阵 [ 2 2 2 2 ] \begin{bmatrix} 2 & 2 \\ 2 & 2 \end{bmatrix} [2222] 的特征值和特征向量。

  • 算特征值
    det ⁡ ( [ 2 − λ 2 2 2 − λ ] ) = ( 2 − λ ) 2 − 4 = 0 \det(\begin{bmatrix} 2-\lambda & 2 \\ 2 & 2-\lambda \end{bmatrix}) = (2-\lambda)^2 - 4 = 0 det([2−λ222−λ])=(2−λ)2−4=0

    解得: λ 2 − 4 λ = 0 ⇒ λ 1 = 4 , λ 2 = 0 \lambda^2 - 4\lambda = 0 \Rightarrow \lambda_1 = 4, \quad \lambda_2 = 0 λ2−4λ=0⇒λ1=4,λ2=0。

  • 拿到奇异值 ( Σ \Sigma Σ)

    • σ 1 = 4 = 2 \sigma_1 = \sqrt{4} = \mathbf{2} σ1=4 =2
    • σ 2 = 0 = 0 \sigma_2 = \sqrt{0} = \mathbf{0} σ2=0 =0
    • 所以 Σ = [ 2 0 0 0 ] \Sigma = \begin{bmatrix} 2 & 0 \\ 0 & 0 \end{bmatrix} Σ=[2000]。
  • 算特征向量 ( V V V)

    • 对应 λ = 4 \lambda=4 λ=4:求解 [ − 2 2 2 − 2 ] x = 0 ⇒ x = y \begin{bmatrix} -2 & 2 \\ 2 & -2 \end{bmatrix}x=0 \Rightarrow x=y [−222−2]x=0⇒x=y。归一化得到 v 1 = [ 1 2 1 2 ] v_1 = \begin{bmatrix} \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} \end{bmatrix} v1=[2 12 1]。
    • 对应 λ = 0 \lambda=0 λ=0:求解 [ 2 2 2 2 ] x = 0 ⇒ x = − y \begin{bmatrix} 2 & 2 \\ 2 & 2 \end{bmatrix}x=0 \Rightarrow x=-y [2222]x=0⇒x=−y。归一化得到 v 2 = [ 1 2 − 1 2 ] v_2 = \begin{bmatrix} \frac{1}{\sqrt{2}} \\ -\frac{1}{\sqrt{2}} \end{bmatrix} v2=[2 1−2 1]。
    • 所以 V = [ 1 2 1 2 1 2 − 1 2 ] V = \begin{bmatrix} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{2}} \end{bmatrix} V=[2 12 12 1−2 1]

2. 攻克 U U U

利用捷径公式 u i = 1 σ i A v i u_i = \frac{1}{\sigma_i} A v_i ui=σi1Avi。

  • 算 u 1 u_1 u1
    u 1 = 1 2 [ 1 1 0 0 1 1 ] [ 1 2 1 2 ] = 1 2 [ 2 0 2 ] = [ 1 2 0 1 2 ] u_1 = \frac{1}{2} \begin{bmatrix} 1 & 1 \\ 0 & 0 \\ 1 & 1 \end{bmatrix} \begin{bmatrix} \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} \end{bmatrix} = \frac{1}{2} \begin{bmatrix} \sqrt{2} \\ 0 \\ \sqrt{2} \end{bmatrix} = \begin{bmatrix} \frac{1}{\sqrt{2}} \\ 0 \\ \frac{1}{\sqrt{2}} \end{bmatrix} u1=21 101101 [2 12 1]=21 2 02 = 2 102 1

  • 算 u 2 u_2 u2 和 u 3 u_3 u3

    因为 σ 2 = 0 \sigma_2 = 0 σ2=0,公式失效。我们需要找能把 3 × 3 3 \times 3 3×3 空间填满且互相垂直的向量(正交补全)。

    • 最终得到 U U U 是一个 3 × 3 3 \times 3 3×3 的矩阵。

总结

  • 矩阵是空间的变换动作。
  • 逆矩阵是撤销这个动作。
  • 特征向量是变换中方向不变的轴(骨架)。
  • 特征值是这些轴伸缩的倍数。
  • 是总伸缩量,是有效信息的维度。
  • SVD 是万能拆解法,能帮我们在乱糟糟的数据中提取出最核心的规律。SVD 的求解本质就是 A T A A^T A ATA 的特征分解
相关推荐
山居秋暝LS1 小时前
Padim模型参数
人工智能·机器学习
Rorsion2 小时前
机器学习过程(从机器学习到深度学习)
人工智能·深度学习·机器学习
CV@CV3 小时前
拆解自动驾驶核心架构——感知、决策、控制三层逻辑详解
人工智能·机器学习·自动驾驶
数智工坊3 小时前
【数据结构-特殊矩阵】3.5 特殊矩阵-压缩存储
数据结构·线性代数·矩阵
AI科技星3 小时前
张祥前统一场论核心场方程的经典验证-基于电子与质子的求导溯源及力的精确计算
线性代数·算法·机器学习·矩阵·概率论
A尘埃4 小时前
银行个人贷款违约风险预测(逻辑回归)
算法·机器学习·逻辑回归
Godspeed Zhao5 小时前
从零开始学AI7——机器学习0
人工智能·机器学习
deep_drink5 小时前
【基础知识二】彻底读懂拉普拉斯矩阵 (Laplacian)
人工智能·深度学习·线性代数·矩阵
sonadorje5 小时前
标量投影和向量投影
线性代数