第2章 线性代数

目录

  • [1. 标量、向量、矩阵和张量](#1. 标量、向量、矩阵和张量)
  • [2. 矩阵和向量相乘](#2. 矩阵和向量相乘)
  • [3. 单位矩阵和逆矩阵](#3. 单位矩阵和逆矩阵)
  • [4. 线性相关和生成子空间](#4. 线性相关和生成子空间)
  • [5. 范数](#5. 范数)
  • [6. 特殊类型的矩阵和向量](#6. 特殊类型的矩阵和向量)
  • [7. 特征分解](#7. 特征分解)
  • [8. 奇异值分解](#8. 奇异值分解)
  • [9. Moore-Penrose伪逆](#9. Moore-Penrose伪逆)
  • [10. 迹运算](#10. 迹运算)
  • [11. 行列式](#11. 行列式)

1. 标量、向量、矩阵和张量

  • 标量(scalar):数

  • 向量(vector) :一列数
    x = [ x 1 x 2 . . . x n ] x= \begin{bmatrix}x_1 \\ x_2 \\ . \\ . \\ . \\ x_n\end{bmatrix} x= x1x2...xn

  • 矩阵(matrix):二维数组

  • 张量(tensor):超过二维的数组

  • 转置(transpose)

  • 主对角线(main diagonal)

  • 广播(broadcasting) :矩阵和向量相加过程中,复制向量的方式
    C = A + b C = A + b C=A+b

    [ 1 2 3 4 5 6 7 8 9 ] + [ 1 2 3 ] = [ 1 2 3 4 5 6 7 8 9 ] + [ 1 2 3 1 2 3 1 2 3 ] = [ 2 4 6 5 7 9 8 10 12 ] \begin{bmatrix}1 \quad 2 \quad 3 \\ 4 \quad 5 \quad 6 \\ 7 \quad 8 \quad 9\end{bmatrix} + \begin{bmatrix}1 \quad 2 \quad 3 \end{bmatrix} = \begin{bmatrix}1 \quad 2 \quad 3 \\ 4 \quad 5 \quad 6 \\ 7 \quad 8 \quad 9\end{bmatrix} + \begin{bmatrix}1 \quad 2 \quad 3 \\ 1 \quad 2 \quad 3 \\ 1 \quad 2 \quad 3\end{bmatrix} = \begin{bmatrix}2 \quad 4 \quad 6 \\ 5 \quad 7 \quad 9 \\ 8 \quad 10 \quad 12\end{bmatrix} 123456789 +[123]= 123456789 + 123123123 = 24657981012

2. 矩阵和向量相乘

  • 重要公式

    1. A ( B + C ) = A B + A C A(B+C) = AB + AC A(B+C)=AB+AC

    2. A ( B C ) = ( A B ) C A(BC) = (AB)C A(BC)=(AB)C

    3. A B ≠ B A AB \ne BA AB=BA

    4. ( A B ) T = B T A T (AB)^T = B^TA^T (AB)T=BTAT

    5. x T y = ( x T y ) T = y T x x^Ty = (x^Ty)^T = y^Tx xTy=(xTy)T=yTx

  • 线性方程组
    A x = b Ax = b Ax=b

    其中 A ∈ R m ∗ n A \in ℝ^{m*n} A∈Rm∗n是一个已知矩阵, b ∈ R m b \in ℝ^{m} b∈Rm是一个已知向量, x ∈ R n x \in ℝ^{n} x∈Rn是一个我们要求解的未知向量

3. 单位矩阵和逆矩阵

  • 矩阵逆(matrix inversion)

  • 单位矩阵(identity matrix)
    A − 1 A = A A − 1 = I n A^{-1}A = AA^{-1} = I_n A−1A=AA−1=In

4. 线性相关和生成子空间

  • 如果逆矩阵 A − 1 A^{-1} A−1存在,那么 A x = b Ax = b Ax=b肯定对于每一个向量 b b b恰好存在一个解

  • 但是,对于方程组而言,对于向量 b b b的某些值,有可能不存在解,或者存在无限多个解

  • 存在多于一个解但是少于无限多个解的情况是不可能发生的

    • 因为如果 x x x和 y y y都是某方程组的解,则 z = α x + ( 1 − α ) y z = \alpha x + (1 - \alpha)y z=αx+(1−α)y也是方程的解
  • 线性组合(linear combination)
    A x = [ A 1 , 1 x 1 + A 1 , 2 x 2 + . . . A 1 , n x n A 2 , 1 x 1 + A 2 , 2 x 2 + . . . A 2 , n x n . . . A m , 1 x 1 + A m , 2 x 2 + . . . A m , n x n ] = x 1 [ A 1 , 1 A 2 , 1 . . . A m , 1 ] + x 2 [ A 1 , 2 A 2 , 2 . . . A m , 2 ] + . . . x n [ A 1 , n A 2 , n . . . A m , n ] = ∑ i = 1 n x i A : , i Ax = \begin{bmatrix} {A_{1,1}x_1 + A_{1, 2}x_2 + ... A_{1, n}x_n} \\ {A_{2,1}x_1 + A_{2, 2}x_2 + ... A_{2, n}x_n } \\ . \\ . \\ . \\ {A_{m,1}x_1 + A_{m, 2}x_2 + ... A_{m, n}x_n} \end{bmatrix} = x_1 \begin{bmatrix} A_{1,1} \\ A_{2,1}\\ . \\ . \\ . \\ A_{m,1} \end{bmatrix} + x_2 \begin{bmatrix} A_{1,2} \\ A_{2,2}\\ . \\ . \\ . \\ A_{m,2} \end{bmatrix} + ... x_n \begin{bmatrix} A_{1,n} \\ A_{2,n}\\ . \\ . \\ . \\ A_{m,n} \end{bmatrix} = \sum_{i=1}^{n} x_iA_{:, i} Ax= A1,1x1+A1,2x2+...A1,nxnA2,1x1+A2,2x2+...A2,nxn...Am,1x1+Am,2x2+...Am,nxn =x1 A1,1A2,1...Am,1 +x2 A1,2A2,2...Am,2 +...xn A1,nA2,n...Am,n =i=1∑nxiA:,i

  • 一组向量的生成子空间(span):原始向量线性组合后所能抵达的点的集合

    • 即 x x x
  • 确定 A x = b Ax=b Ax=b是否有解,相当于确定向量 b b b是否在 A A A列向量的生成子空间中

    • 这个特殊的生成子空间被称为 A A A的列空间(column space)或者 A A A的值域(range)
    • 即 x x x组成的集合
  • 线性相关(linear dependence) :一组向量中的任意一个向量都表示成其他向量的线性组合

  • 线性无关(linearly indepent) :一组向量中的任意一个向量都不能表示成其他向量的线性组合

  • 为使矩阵可逆,需要保证 A x = b Ax=b Ax=b对于每一个 b b b至多有一个解

    • 即矩阵必须是一个方阵(square)
  • 奇异(singular)矩阵:一个列向量线性相关的方阵

5. 范数

  • 范数(norm):将向量映射到非负值的函数

  • 范数 L p L^p Lp
    ∣ ∣ x ∣ ∣ p = ( ∑ i ∣ x i ∣ p ) 1 p ||x||p = (\sum{i} |x_i|^p)^{\frac{1}{p}} ∣∣x∣∣p=(i∑∣xi∣p)p1

    其中, p ∈ R p \in ℝ p∈R, p ≥ 1 p \geq 1 p≥1

  • 向量 x x x的范数:从原点到点 x x x的距离

  • 满足以下性质

    • f ( x ) = 0 ⇒ x = 0 f(x) = 0 \Rightarrow x = \mathbf{0} f(x)=0⇒x=0

    • f ( x + y ) ≤ f ( x ) + f ( y ) f(x+y) \leq f(x) + f(y) f(x+y)≤f(x)+f(y)

      • 三角不等式(triangle inequality)
    • ∀ α ∈ R , f ( α x ) = ∣ α ∣ f ( x ) \forall \alpha \in ℝ, \hspace{.1cm} f(\alpha x) = |\alpha|f(x) ∀α∈R,f(αx)=∣α∣f(x)

  • L 0 L^0 L0范数:向量中非0的元素的个数

    • L0范数很难优化求解
  • L 1 L^1 L1范数:向量中各个元素绝对值之和

  • L 2 L^2 L2范数:向量各元素的平方和然后求平方根

    • 欧几里得范数(Euclidean norm)
    • 简化为 ∣ ∣ x ∣ ∣ ||x|| ∣∣x∣∣
  • L ∞ L^{\infty} L∞范数:向量中具有最大幅值的元素的绝对值

    • 最大范数(Max norm)
    • ∣ ∣ x ∣ ∣ ∞ = max ⁡ i ∣ x i ∣ ||x||{\infty} = \displaystyle \max{i}|x_i| ∣∣x∣∣∞=imax∣xi∣
  • L F L^F LF范数:矩阵范数

    • Frobenius范数(Frobenius norm)
    • $||A||F = \sqrt{\displaystyle \sum{i,j} A_{i,j}^2} $
  • 两个向量的点积可以用范数来表示
    x T y = ∣ ∣ x ∣ ∣ 2 ∣ ∣ y ∣ ∣ 2 c o s θ x^Ty = ||x||_2||y||_2cos\theta xTy=∣∣x∣∣2∣∣y∣∣2cosθ

    其中, θ \theta θ为 x x x和 y y y之间的夹角

6. 特殊类型的矩阵和向量

  • 单位向量(unit vector):具有**单位范数(unit norm)**的向量

  • 如果 x T y = 0 x^Ty=0 xTy=0,那么向量 x x x和向量 y y y互相正交(orthogonal)

  • 标准正交(orthonormal):向量正交,且范数均为1

  • 对角矩阵(diagonal matrix):只在主对角线上含有非零元素,其他位置都是零

    • 字母表示为 d i a g ( v ) diag(v) diag(v)
  • 对称矩阵(symmetric matrix):转置和自己相等的矩阵

  • 正交矩阵(orthogonal matrix) :行向量和列向量分别标准正交的方阵
    A T A = A A T = I A − 1 = A T A^TA = AA^T = I \\ A^{-1} = A^T ATA=AAT=IA−1=AT

7. 特征分解

  • 方阵 A A A的特征向量(eigenvector) :与 A A A相乘后相当于对该向量进行缩放的非零向量 v v v:
    A v = λ v Av = \lambda v Av=λv

    其中,标量 λ λ λ称为这个特征向量对应的特征值(eigenvalue)

    • 左特征向量(left eigenvector)
      v T A = λ v T v^TA = \lambda v^T vTA=λvT

    • 右特征向量(right eigenvector)
      A v = λ v Av = \lambda v Av=λv

  • 特征分解(eigendecomposition):将矩阵分解成一组特征向量和特征值

    • 矩阵 A A A具有 n n n个线性无关的特征向量 V = [ v ( 1 ) , . . . , v ( n ) ] V = [v^{(1)}, ... , v^{(n)}] V=[v(1),...,v(n)],对应着 n n n个特征值 λ = [ λ 1 , . . . , λ n ] \lambda = [\lambda_1, ... , \lambda_n] λ=[λ1,...,λn]

    • 矩阵 A A A的特征分解
      A = V d i a g ( λ ) V − 1 A = Vdiag(\lambda)V^{-1} A=Vdiag(λ)V−1

    • 在 A A A是实对称矩阵的情况下, V V V是正交矩阵

      • A A A看作是沿方向 v ( i ) v^{(i)} v(i)延展 λ i \lambda_i λi倍的空间
  • 正定(positive definite) :所有特征值都是正数的矩阵
    x T A x = 0 ⇒ x = 0 x^TAx = 0 \Rightarrow x = 0 xTAx=0⇒x=0

  • 半正定(positive semidefinite) :所有特征值都是非负数的矩阵
    ∀ x , x T A x ≥ 0 \forall x, \hspace{0.1cm} x^TAx \geq 0 ∀x,xTAx≥0

  • 负定(negative definite):所有特征值都是负数的矩阵称

  • 半负定(negative semidefinite):所有特征值都是非正数的矩阵

8. 奇异值分解

  • 奇异值分解(Singular Value Decomposition,SVD) :将矩阵分解为奇异向量(singular vector)奇异值(singular value)

  • 每个实数矩阵都有一个奇异值分解,但不一定都有特征分解

    • 非方阵的矩阵没有特征分解,这时我们只能使用奇异值分解。
  • 矩阵 A A A的奇异值分解
    A = U D V T A = UDV^T A=UDVT

    其中, A A A是一个 m ∗ n m*n m∗n的矩阵, U U U是一个 m ∗ m m*m m∗m的矩阵, D D D是一个 m ∗ n m*n m∗n的矩阵, V V V是一个 n ∗ n n*n n∗n矩阵

    • U U U和 V V V都是正交矩阵, D D D是对角矩阵

    • D D D对角线上的元素称为矩阵 A A A的奇异值(singular value)

    • U U U的列向量称为左奇异向量(left singular vector)

      • A A T AA^T AAT的特征向量
    • V V V的列向量称右奇异向量(right singular vector)

      • A T A A^TA ATA的特征向量
    • A A A的非零奇异值: A A T AA^T AAT或 A T A A^TA ATA特征值的平方根

9. Moore-Penrose伪逆

  • Moore-Penrose伪逆(Moore-Penrose pseudoinverse)

  • 矩阵 A ( m ∗ n ) A(m*n) A(m∗n)的伪逆的定义
    A + = lim ⁡ α → 0 ( A T A + α I ) − 1 A T A^+ = \lim\limits_{\alpha \rightarrow 0} (A^TA + \alpha I)^{-1}A^T A+=α→0lim(ATA+αI)−1AT

  • 计算伪逆的实际算法没有基于这个定义,而是使用下面的公式
    A + = V D + U T A^+ = VD^+U^T A+=VD+UT

    • 其中,矩阵 U U U、 D D D和 V V V是矩阵 A A A奇异值分解后得到的矩阵
    • D + D^+ D+:非零元素取倒数之后再转置得到
  • 当 m ⩽ n m \leqslant n m⩽n时,使用伪逆求解线性方程是众多可能解法中的一种

    • x = A + y x=A^+y x=A+y是方程所有可行解中 ∣ ∣ x ∣ ∣ 2 ||x||_2 ∣∣x∣∣2最小的一个
  • 当 m > n m > n m>n时,可能没有解

    • 通过伪逆得到的 x x x使得 A x Ax Ax和 y y y的 ∣ ∣ A x − y ∣ ∣ 2 ||Ax - y||_2 ∣∣Ax−y∣∣2最小

10. 迹运算

  • 迹运算:矩阵对角元素的和
    T r ( A ) = ∑ i A i , i Tr(A) = \sum_{i}A_{i,i} Tr(A)=i∑Ai,i

  • 另一种描述矩阵Frobenius范数的方式
    ∣ ∣ A ∣ ∣ F = T r ( A A T ) ||A||_F = \sqrt{Tr(AA^T)} ∣∣A∣∣F=Tr(AAT)

  • 迹运算在转置运算下是不变的
    T r ( A ) = T r ( A T ) Tr(A) = Tr(A^T) Tr(A)=Tr(AT)

  • 多个矩阵相乘得到的方阵的迹,和将这些矩阵中的最后一个挪到最前面之后相乘的迹是相同的
    T r ( A B C ) = T r ( C A B ) = T r ( B C A ) Tr(ABC) = Tr(CAB) = Tr(BCA) Tr(ABC)=Tr(CAB)=Tr(BCA)

11. 行列式

  • 行列式:将方阵 A A A映射到实数的函数
    • 记作 d e t ( A ) det(A) det(A)
    • 等于矩阵特征值的乘积
  • 行列式的绝对值可以用来衡量矩阵参与矩阵乘法后空间扩大或者缩小了多少
  • 如果行列式是 0 0 0,那么空间至少沿着某一维完全收缩了,使其失去了所有的体积
  • 如果行列式是 1 1 1,那么这个转换保持空间体积不变
相关推荐
野蛮的大西瓜6 分钟前
开源呼叫中心中,如何将ASR与IVR菜单结合,实现动态的IVR交互
人工智能·机器人·自动化·音视频·信息与通信
CountingStars61931 分钟前
目标检测常用评估指标(metrics)
人工智能·目标检测·目标跟踪
yuanbenshidiaos35 分钟前
C++----------函数的调用机制
java·c++·算法
唐叔在学习39 分钟前
【唐叔学算法】第21天:超越比较-计数排序、桶排序与基数排序的Java实践及性能剖析
数据结构·算法·排序算法
tangjunjun-owen39 分钟前
第四节:GLM-4v-9b模型的tokenizer源码解读
人工智能·glm-4v-9b·多模态大模型教程
冰蓝蓝44 分钟前
深度学习中的注意力机制:解锁智能模型的新视角
人工智能·深度学习
橙子小哥的代码世界1 小时前
【计算机视觉基础CV-图像分类】01- 从历史源头到深度时代:一文读懂计算机视觉的进化脉络、核心任务与产业蓝图
人工智能·计算机视觉
ALISHENGYA1 小时前
全国青少年信息学奥林匹克竞赛(信奥赛)备考实战之分支结构(switch语句)
数据结构·算法
chengooooooo1 小时前
代码随想录训练营第二十七天| 贪心理论基础 455.分发饼干 376. 摆动序列 53. 最大子序和
算法·leetcode·职场和发展
jackiendsc1 小时前
Java的垃圾回收机制介绍、工作原理、算法及分析调优
java·开发语言·算法