八股文·线性代数及其应用

文章目录

矩阵乘法

公式理解

  • Ax=b:等价于对于A中的列向量进行线性组合
    A x = b = a 1 x 1 + a 2 x 2 + ⋯ + a n x n \begin{align} Ax&=b \\ &=a_1x_1+a_2x_2+\cdots+a_nx_n \end{align} Ax=b=a1x1+a2x2+⋯+anxn
  • AX=B:等价于利用X的列向量对于A中每一个列向量进行线性组合
    A X = A x 1 , x 2 , ⋯   , x n = B \begin{align} AX&=Ax_1,x_2,\\cdots,x_n\\ &=B \end{align} AX=Ax1,x2,⋯,xn=B

线性变换

几何意义:坐标基的变换

旋转变换

  • 坐标基旋转一定角度。
  • 面积,周长保持不变
  • 坐标基仍然保持正交
    A = cos ⁡ θ − sin ⁡ θ sin ⁡ θ cos ⁡ θ \begin{align} A= \begin{bmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{bmatrix} \end{align} A=cosθsinθ−sinθcosθ

剪切变换

  • 平行性质不变:原先平行,剪切变换后仍然保持平行。
  • 面积变换:变换后面积发生变换。
  • 坐标基不再正交
    A = 1 k 0 1 \begin{align} A= \begin{bmatrix} 1 & k \\ 0 & 1 \end{bmatrix} \end{align} A=10k1

行列式

几何意义:线性变换后对于坐标基所围成的"体积"的缩放程度

  • 2D:面积的缩放
  • 3D:体积的缩放

det ⁡ ( A ) = 0 \det(A)=0 det(A)=0:维度坍缩=不可逆

  • det不等于0:说明会对体积进行缩放,但是不会出现维度坍缩。
  • det等于0:面积退化为一条线,体积退化为面积或者线,出现了不可逆的信息损失,维度坍缩。

逆矩阵

矩阵可逆的意义:线性变换后没有出现降维或者信息压缩

矩阵可逆的条件

  • 行列式不等于0: det ⁡ ( A ) ≠ 0 \det(A)\neq0 det(A)=0
  • 矩阵满秩: R ( A ) = min ⁡ ( n , m ) R(A)=\min(n,m) R(A)=min(n,m)

余子式

定义

  • 去除 A i j A_{ij} Aij表示去除矩阵A中 i 行 j 列所有的元素得到的子矩阵。

A = 1 2 3 4 5 6 7 8 9 \begin{align} A= \begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \\ 7 & 8 & 9 \end{bmatrix} \end{align} A= 147258369

  • 余子式 M 11 : M_{11}: M11:
    M 11 = ∣ 5 6 8 9 ∣ \begin{align} M_{11}= \begin{vmatrix} 5 & 6 \\ 8 & 9 \end{vmatrix} \end{align} M11= 5869

代数余子式

  • 计算行列式时,第 i 行 j 列的余子式需要乘以 ( − 1 ) i + j (-1)^{i+j} (−1)i+j
  • 假设有代数余子式 M 11 : M_{11}: M11:
    M 11 = + ∣ 5 6 8 9 ∣ \begin{align} M_{11}= + \begin{vmatrix} 5 & 6 \\ 8 & 9 \end{vmatrix} \end{align} M11=+ 5869
  • 假设有代数余子式 M 12 : M_{12}: M12:
    M 12 = − ∣ 5 6 8 9 ∣ \begin{align} M_{12}= - \begin{vmatrix} 5 & 6 \\ 8 & 9 \end{vmatrix} \end{align} M12=− 5869

线性空间

线性空间的定义:元素满足线性运算规则的集合

  • 集合元素简称向量 ,但不一定指代一般含义的向量
  • 向量空间是一种特殊的线性空间 ,其中的元素满足加法/数乘封闭。
    R 2 = { x y ∣ x , y ∈ R } \begin{align} \mathbb{R}^2=\left\{ \begin{bmatrix} x\\ y \end{bmatrix} \mid x,y\in \mathbb{R} \right\} \end{align} R2={xy∣x,y∈R}
  • 多项式空间:

P 2 = { a + b x + c x 2 ∣ a , b , c ∈ R } \begin{align} P_2=\{a+bx+cx^2 \mid a,b,c\in \mathbb{R}\} \end{align} P2={a+bx+cx2∣a,b,c∈R}

性质1:封闭性

  • 加法和数乘封闭
    u , v ∈ V ⇒ u + v ∈ V \begin{align} u,v\in V \Rightarrow u+v\in V \end{align} u,v∈V⇒u+v∈V

u ∈ V , c ∈ F ⇒ c u ∈ V \begin{align} u\in V,\ c\in F \Rightarrow cu\in V \end{align} u∈V, c∈F⇒cu∈V

性质2:定义完整,符合运算律

  • 包含零元素

    ∃ 0 ∈ V , ∀ v ∈ V , v + 0 = v \begin{align} \exists 0\in V,\quad \forall v\in V,\quad v+0=v \end{align} ∃0∈V,∀v∈V,v+0=v

  • 加法存在逆元

∀ v ∈ V , ∃ − v ∈ V , v + ( − v ) = 0 \begin{align} \forall v\in V,\quad \exists -v\in V,\quad v+(-v)=0 \end{align} ∀v∈V,∃−v∈V,v+(−v)=0

  • 满足交换律,结合率和分配律
    u + v = v + u \begin{align} u+v=v+u \end{align} u+v=v+u

( u + v ) + w = u + ( v + w ) \begin{align} (u+v)+w=u+(v+w) \end{align} (u+v)+w=u+(v+w)

c ( u + v ) = c u + c v \begin{align} c(u+v)=cu+cv \end{align} c(u+v)=cu+cv

与向量空间的关系:向量空间是一种特殊的线性空间

向量空间

向量空间的定义:由向量组成的集合

向量空间的维度:向量空间中线性无关向量的个数

  • 向量空间的维度 dim ⁡ \dim dim 指的是向量空间中线性无关向量的个数
    dim ⁡ Null ⁡ ( A ) = 1 \begin{align} \dim \operatorname{Null}(A)=1 \end{align} dimNull(A)=1

向量空间的基

定义:找出n个线性无关的向量可以张成该空间

  • 性质1:找出n个向量可以张成空间V
    v 1 , v 2 , ⋯   , v n \begin{align} \mathbf{v}_1,\mathbf{v}_2,\cdots,\mathbf{v}_n \end{align} v1,v2,⋯,vn
    V = span ⁡ { v 1 , v 2 , ⋯   , v n } \begin{align} V=\operatorname{span}\{\mathbf{v}_1,\mathbf{v}_2,\cdots,\mathbf{v}_n\} \end{align} V=span{v1,v2,⋯,vn}
  • 性质2:任意一个向量都与其他向量线性无关
    k 1 v 1 + k 2 v 2 + ⋯ + k n v n = 0 ⇒ k 1 = k 2 = ⋯ = k n = 0 \begin{align} k_1\mathbf{v}_1+k_2\mathbf{v}_2+\cdots+k_n\mathbf{v}_n=\mathbf{0}\Rightarrow k_1=k_2=\cdots=k_n=0 \end{align} k1v1+k2v2+⋯+knvn=0⇒k1=k2=⋯=kn=0

列空间

定义:矩阵A的列向量所张成的集合

  • A的列空间指的是由A的列向量所组成的向量空间
  • 假设有如下矩阵 A A A:
    A = 1 2 2 4 3 6 \begin{align} A= \begin{bmatrix} 1 & 2 \\ 2 & 4 \\ 3 & 6 \end{bmatrix} \end{align} A= 123246
  • A的列空间就是两个列向量张成的向量空间
    Col ⁡ ( A ) = span ⁡ { 1 2 3 , 2 4 6 } \begin{align} \operatorname{Col}(A)= \operatorname{span} \left\{ \begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix}, \begin{bmatrix} 2 \\ 4 \\ 6 \end{bmatrix} \right\} \end{align} Col(A)=span⎩ ⎨ ⎧ 123 , 246 ⎭ ⎬ ⎫
  • 等价于:

Col ⁡ ( A ) = { c 1 1 2 3 + c 2 2 4 6 ∣ c 1 , c 2 ∈ R } \begin{align}\operatorname{Col}(A)= \left\{ c_1 \begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix} + c_2 \begin{bmatrix} 2 \\ 4 \\ 6 \end{bmatrix} \mid c_1,c_2\in \mathbb{R} \right\} \end{align} Col(A)=⎩ ⎨ ⎧c1 123 +c2 246 ∣c1,c2∈R⎭ ⎬ ⎫

零空间

定义:在矩阵A作用下变成零向量的向量的集合

  • 给定矩阵A:

    A = 1 2 2 4 \begin{align} A= \begin{bmatrix} 1 & 2 \\ 2 & 4 \end{bmatrix} \end{align} A=1224

  • 零空间的定义为:

    Null ⁡ ( A ) = { x ∣ A x = 0 } \begin{align} \operatorname{Null}(A) = \left\{ \mathbf{x}\mid A\mathbf{x}=\mathbf{0} \right\} \end{align} Null(A)={x∣Ax=0}

  • 最终得到的零空间具体定义为:

    Null ⁡ ( A ) = { t − 2 1 ∣ t ∈ R } \begin{align} \operatorname{Null}(A) = \left\{ t \begin{bmatrix} -2 \\ 1 \end{bmatrix} \mid t\in\mathbb{R} \right\} \end{align} Null(A)={t−21∣t∈R}

  • 含义:经过矩阵A的作用后, t − 2 , 1 t-2, 1 t−2,1这个方向的信息都会被丢失(坍缩为零向量)

定义:经过线性变换后保留多少维度的信息

  • 线性无关的方向/向量数
  • 非零子式最高阶数

性质

行秩等于列秩

秩-零定义:可以表达的向量空间的维度+丢失的向量空间的维度=全部的维度

  • 列空间的维数+零空间的维数=n
    rank ⁡ ( A ) + nullity ⁡ ( A ) = min ⁡ ( n , m ) \begin{align} \operatorname{rank}(A)+\operatorname{nullity}(A)=\min(n,m) \end{align} rank(A)+nullity(A)=min(n,m)
  • 这里的维数指的是向量空间的维度(dim) ,等价于线性无关组的数量,Null(A)=1
    Null ⁡ ( A ) = span ⁡ { 1 − 2 1 } \begin{align} \operatorname{Null}(A) = \operatorname{span} \left\{ \begin{bmatrix} 1\\ -2\\ 1 \end{bmatrix} \right\} \end{align} Null(A)=span⎩ ⎨ ⎧ 1−21 ⎭ ⎬ ⎫

向量运算

内积

内积的定义:向量的相似程度

a ⋅ b = ∥ a ∥ ∥ b ∥ cos ⁡ θ \begin{align} \mathbf{a}\cdot\mathbf{b}=\|\mathbf{a}\|\|\mathbf{b}\|\cos\theta \end{align} a⋅b=∥a∥∥b∥cosθ

叉乘

叉乘的定义:向量所围成的"体积",使用行列式表示

  • 在2D向量中:a和b 的叉乘表示向量a和b围成的平行四边形的面积 ,使用行列式 计算
    ∥ a × b ∥ = ∥ a ∥ ∥ b ∥ sin ⁡ θ \begin{align} \|\mathbf{a}\times \mathbf{b}\|=\|\mathbf{a}\|\|\mathbf{b}\|\sin\theta \end{align} ∥a×b∥=∥a∥∥b∥sinθ
  • 在3D向量中:a,b和c的叉乘结果表示三个向量所围成的平行四面体的体积 ,使用行列式计算。
  • 对于3D向量:a和b的叉乘表示的是平面的法向量
    a × b = ∣ i j k a 1 a 2 a 3 b 1 b 2 b 3 ∣ \begin{align} \mathbf{a}\times \mathbf{b} =\begin{vmatrix} \mathbf{i} & \mathbf{j} & \mathbf{k} \\ a_1 & a_2 & a_3 \\ b_1 & b_2 & b_3 \end{vmatrix} \end{align} a×b= ia1b1ja2b2ka3b3

正交向量:向量内积为0

a ⊥ b ⟺ a ⋅ b = 0 \begin{align} \mathbf{a}\perp\mathbf{b}\Longleftrightarrow \mathbf{a}\cdot\mathbf{b}=0 \end{align} a⊥b⟺a⋅b=0

矩阵论

对称矩阵

定义: A = A T A=A^T A=AT

性质1:对称矩阵的特征值一定存在

性质2:对称矩阵的特征向量一定正交

设 (u,v) 是 (A) 的两个特征向量,对应不同特征值 ( λ \lambda λ, μ \mu μ):

A u = λ u , A v = μ v , λ ≠ μ Au=\lambda u,\quad Av=\mu v,\quad \lambda\neq \mu Au=λu,Av=μv,λ=μ

考虑内积 (u^TAv)。由 (Av=\mu v),有:

u T A v = u T ( μ v ) = μ u T v u^TAv=u^T(\mu v)=\mu u^Tv uTAv=uT(μv)=μuTv

另一方面,由于 (A=A^T),有:

u T A v = ( A T u ) T v = ( A u ) T v u^TAv=(A^Tu)^Tv=(Au)^Tv uTAv=(ATu)Tv=(Au)Tv

再由 (Au=\lambda u),得到:

( A u ) T v = ( λ u ) T v = λ u T v (Au)^Tv=(\lambda u)^Tv=\lambda u^Tv (Au)Tv=(λu)Tv=λuTv

因此:

λ u T v = μ u T v \lambda u^Tv=\mu u^Tv λuTv=μuTv

移项:

( λ − μ ) u T v = 0 (\lambda-\mu)u^Tv=0 (λ−μ)uTv=0

因为:

λ ≠ μ \lambda\neq \mu λ=μ

所以只能有:

u T v = 0 u^Tv=0 uTv=0

这说明 (u) 和 (v) 正交。


正交矩阵

定义:由单位正交向量所组成的矩阵

Q = q 1 q 2 ⋯ q n \begin{align} Q=\begin{bmatrix}\mathbf{q}_1 & \mathbf{q}_2 & \cdots & \mathbf{q}_n\end{bmatrix} \end{align} Q=q1q2⋯qn

性质:正交矩阵的转置=正交矩阵的逆

  • 满足自己转置和自己相乘 为单位阵的矩阵。
    Q T Q = I \begin{align} Q^TQ=I \end{align} QTQ=I
  • 等价于:
    Q − 1 = Q T \begin{align} Q^{-1}=Q^T \end{align} Q−1=QT

正定矩阵

定义:使得任意非零向量的A叉乘结果大于0的对称矩阵

x T A x > 0 , x ≠ 0 \begin{align} \mathbf{x}^TA\mathbf{x}>0,\quad \mathbf{x}\neq \mathbf{0} \end{align} xTAx>0,x=0

性质1:特征值一定存在且大于0

A v = λ v , v ≠ 0 \begin{align} A\mathbf{v}=\lambda \mathbf{v},\quad \mathbf{v}\neq \mathbf{0} \end{align} Av=λv,v=0

性质2:一定可逆, det ⁡ ( A ) > 0 \det(A)>0 det(A)>0

  • 行列式的结果等于特征值的乘积:
    det ⁡ ( A ) = λ 1 λ 2 ⋯ λ n \begin{align} \det(A)=\lambda_1\lambda_2\cdots\lambda_n \end{align} det(A)=λ1λ2⋯λn

相似矩阵

定义

  • A和B相似,指的是存在可逆矩阵P,使得:
    B = P − 1 A P \begin{align} B=P^{-1}AP \end{align} B=P−1AP
    A ∼ B \begin{align} A\sim B \end{align} A∼B

相似对角化:相似于对角化矩阵

  • A和B相似,如果B是一个对角化矩阵,那么这个过程称为:相似对角化

意义1:同一个线性变换在新基下的矩阵表示

y new = P − 1 A P x new \begin{align} \mathbf{y}{\text{new}}=P^{-1}A P\mathbf{x}{\text{new}} \end{align} ynew=P−1APxnew

意义2:对于矩阵作用效果的分解

性质1:相似矩阵具有相同的秩、迹、行列式、特征值

  • 理解:作用效果一致,只是坐标基不同,因此特征值(缩放程度),行列式和秩序(信息量)不会出现丢失。

性质2:相似矩阵可能具有不同的特征向量

  • 不同坐标系下的基向量不一样,所以对应的特征向量也不同例如旋转90度的坐标基

作用:简化幂函数的运算

A k = P D k P − 1 \begin{align} A^k=PD^kP^{-1} \end{align} Ak=PDkP−1

特征向量和特征值

矩阵分解

特征值分解

定义

  • A有n个线性无关的向量,则A可以分解为以下形式:
    A = P Λ P − 1 \begin{align} A=P\Lambda P^{-1} \end{align} A=PΛP−1
  • 其中:
    P = ( v 1 v 2 ⋯ v n ) \begin{align} P=\begin{pmatrix}v_1&v_2&\cdots&v_n\end{pmatrix} \end{align} P=(v1v2⋯vn)
    Λ = ( λ 1 0 ⋯ 0 0 λ 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ λ n ) \begin{align} \Lambda=\begin{pmatrix}\lambda_1&0&\cdots&0\\0&\lambda_2&\cdots&0\\\vdots&\vdots&\ddots&\vdots\\0&0&\cdots&\lambda_n\end{pmatrix} \end{align} Λ= λ10⋮00λ2⋮0⋯⋯⋱⋯00⋮λn

意义1:同一个线性变换在单位正交特征向量基下的矩阵表示

  • 观察:分解后的矩阵形式只和中间的对角矩阵有关
    A k = P Λ k P − 1 \begin{align} A^k=P\Lambda^kP^{-1} \end{align} Ak=PΛkP−1
    Λ k = diag ⁡ ( λ 1 k , λ 2 k , ... , λ n k ) \begin{align} \Lambda^k=\operatorname{diag}(\lambda_1^k,\lambda_2^k,\dots,\lambda_n^k) \end{align} Λk=diag(λ1k,λ2k,...,λnk)

意义2:分解矩阵的作用效果 → \rightarrow → 切换坐标系-缩放坐标基-切回原坐标系

  • 对于矩阵的效果进行分解。
    换到特征向量坐标系 → 按特征值缩放 → 换回原坐标系 \begin{align} \text{换到特征向量坐标系}\rightarrow \text{按特征值缩放}\rightarrow \text{换回原坐标系} \end{align} 换到特征向量坐标系→按特征值缩放→换回原坐标系

条件:需要有足够的线性无关的特征向量

  • 对于 n×n 矩阵,需要有 n 个线性无关特征向量:
    A ∈ R n × n \begin{align} A\in\mathbb{R}^{n\times n} \end{align} A∈Rn×n
    A 可特征值分解 ⟺ A 有 n 个线性无关特征向量 \begin{align} A\text{ 可特征值分解}\Longleftrightarrow A\text{ 有 }n\text{ 个线性无关特征向量} \end{align} A 可特征值分解⟺A 有 n 个线性无关特征向量
结论1:对于方阵,对称矩阵一定可以特征值分解

A = A T \begin{align} A=A^T \end{align} A=AT

A = Q Λ Q T \begin{align} A=Q\Lambda Q^T \end{align} A=QΛQT

结论2:对于非方阵,不可以特征值分解 (不符合特征向量的定义)

SVD分解

定义

  • 对于 A A T AA^T AAT矩阵进行特征值计算,得到正交向量基矩阵 (左奇异矩阵)U
  • 对于 A T A A^TA ATA矩阵进行特征值计算右奇异矩阵
    A = U Σ V T \begin{align} A=U\Sigma V^T \end{align} A=UΣVT
    U T U = I \begin{align} U^TU=I \end{align} UTU=I
    Σ = ( σ 1 0 ⋯ 0 0 σ 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ ) \begin{align} \Sigma=\begin{pmatrix}\sigma_1&0&\cdots&0\\0&\sigma_2&\cdots&0\\\vdots&\vdots&\ddots&\vdots\end{pmatrix} \end{align} Σ= σ10⋮0σ2⋮⋯⋯⋱00⋮
    V T V = I \begin{align} V^TV=I \end{align} VTV=I
  • 注意:奇异值是排序过的

特点:任意实矩阵都可以做 SVD 分解

含义:矩阵效果的分解:输入方向旋转 + 各方向缩放 + 输出方向旋转

作用:理解重要信息和进行信息压缩

A ≈ σ 1 u 1 v 1 T + σ 2 u 2 v 2 T + ⋯ + σ k u k v k T \begin{align} A\approx \sigma_1u_1v_1^T+\sigma_2u_2v_2^T+\cdots+\sigma_ku_kv_k^T \end{align} A≈σ1u1v1T+σ2u2v2T+⋯+σkukvkT

作用1:PCA
作用2:低rank近似

A ≈ U k Σ k V k T \begin{align} A\approx U_k\Sigma_kV_k^T \end{align} A≈UkΣkVkT

特征值分解vs奇异值分解

对比点 特征值分解 EVD 奇异值分解 SVD
分解形式 (A=P\Lambda P^{-1}) (A=U\Sigma V^T)
适用对象 只适用于方阵 任意矩阵,包括非方阵
是否一定存在 不一定存在 一定存在
核心条件 方阵有足够多线性无关特征向量 任意矩阵都可以
中间矩阵含义 (\Lambda) 是特征值矩阵 (\Sigma) 是奇异值矩阵
数值性质 特征值可能为负数、复数 奇异值一定非负实数
方向含义 找到变换后方向不变的特征向量 找到输入空间和输出空间中的主要拉伸方向
几何解释 在特征向量方向上缩放 旋转/反射 (\rightarrow) 缩放 (\rightarrow) 旋转/反射
正交性 一般 § 不一定正交 (U,V) 都是正交矩阵
稳定性 对一般矩阵不一定稳定 数值计算中通常更稳定
常见用途 对角化、矩阵幂、线性系统稳定性分析 降维、PCA、图像压缩、推荐系统、低秩近似

基变换:TODO

范数

注意:范数中对于每一个元素的计算都大于0

向量的范数

范数p

  • 元素的p次方求和,最后取根号

矩阵范数

  • 行范数:每一行的绝对值求和,然后取最大值
  • 列范数:每一列的绝对值求和,然后取最大值
  • F范数:类似向量的norm-2范数
  • 谱范数