文章目录
- 矩阵乘法
- 线性变换
- 行列式
-
- 几何意义:线性变换后对于坐标基所围成的"体积"的缩放程度
- [det ( A ) = 0 \det(A)=0 det(A)=0:维度坍缩=不可逆](#det ( A ) = 0 \det(A)=0 det(A)=0:维度坍缩=不可逆)
- 逆矩阵
- 余子式
- 线性空间
- 向量空间
- 秩
- 向量运算
- 矩阵论
-
- 对称矩阵
-
- [定义: A = A T A=A^T A=AT](#定义: A = A T A=A^T A=AT)
- 性质1:对称矩阵的特征值一定存在
- 性质2:对称矩阵的特征向量一定正交
- 正交矩阵
- 正定矩阵
-
- 定义:使得任意非零向量的A叉乘结果大于0的对称矩阵
- 性质1:特征值一定存在且大于0
- [性质2:一定可逆, det ( A ) > 0 \det(A)>0 det(A)>0](#性质2:一定可逆, det ( A ) > 0 \det(A)>0 det(A)>0)
- 相似矩阵
- 特征向量和特征值
- 矩阵分解
-
- 特征值分解
-
- 定义
- 意义1:同一个线性变换在单位正交特征向量基下的矩阵表示
- [意义2:分解矩阵的作用效果 → \rightarrow → 切换坐标系-缩放坐标基-切回原坐标系](#意义2:分解矩阵的作用效果 → \rightarrow → 切换坐标系-缩放坐标基-切回原坐标系)
- 条件:需要有足够的线性无关的特征向量
- SVD分解
-
- 定义
- [特点:任意实矩阵都可以做 SVD 分解](#特点:任意实矩阵都可以做 SVD 分解)
- [含义:矩阵效果的分解:输入方向旋转 + 各方向缩放 + 输出方向旋转](#含义:矩阵效果的分解:输入方向旋转 + 各方向缩放 + 输出方向旋转)
- 作用:理解重要信息和进行信息压缩
- 特征值分解vs奇异值分解
- 基变换:TODO
- 范数
矩阵乘法
公式理解
- Ax=b:等价于对于A中的列向量进行线性组合 。
A x = b = a 1 x 1 + a 2 x 2 + ⋯ + a n x n \begin{align} Ax&=b \\ &=a_1x_1+a_2x_2+\cdots+a_nx_n \end{align} Ax=b=a1x1+a2x2+⋯+anxn - AX=B:等价于利用X的列向量对于A中每一个列向量进行线性组合 。
A X = A x 1 , x 2 , ⋯ , x n = B \begin{align} AX&=Ax_1,x_2,\\cdots,x_n\\ &=B \end{align} AX=Ax1,x2,⋯,xn=B
线性变换
几何意义:坐标基的变换

旋转变换
- 坐标基旋转一定角度。
- 面积,周长保持不变。
- 坐标基仍然保持正交 。
A = cos θ − sin θ sin θ cos θ \begin{align} A= \begin{bmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{bmatrix} \end{align} A=cosθsinθ−sinθcosθ
剪切变换
- 平行性质不变:原先平行,剪切变换后仍然保持平行。
- 面积变换:变换后面积发生变换。
- 坐标基不再正交
A = 1 k 0 1 \begin{align} A= \begin{bmatrix} 1 & k \\ 0 & 1 \end{bmatrix} \end{align} A=10k1
行列式
几何意义:线性变换后对于坐标基所围成的"体积"的缩放程度
- 2D:面积的缩放
- 3D:体积的缩放
det ( A ) = 0 \det(A)=0 det(A)=0:维度坍缩=不可逆
- det不等于0:说明会对体积进行缩放,但是不会出现维度坍缩。
- det等于0:面积退化为一条线,体积退化为面积或者线,出现了不可逆的信息损失,维度坍缩。
逆矩阵
矩阵可逆的意义:线性变换后没有出现降维或者信息压缩
矩阵可逆的条件
- 行列式不等于0: det ( A ) ≠ 0 \det(A)\neq0 det(A)=0
- 矩阵满秩: R ( A ) = min ( n , m ) R(A)=\min(n,m) R(A)=min(n,m)
余子式
定义
- 去除 A i j A_{ij} Aij表示去除矩阵A中 i 行 j 列所有的元素得到的子矩阵。
A = 1 2 3 4 5 6 7 8 9 \begin{align} A= \begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \\ 7 & 8 & 9 \end{bmatrix} \end{align} A= 147258369
- 余子式 M 11 : M_{11}: M11:
M 11 = ∣ 5 6 8 9 ∣ \begin{align} M_{11}= \begin{vmatrix} 5 & 6 \\ 8 & 9 \end{vmatrix} \end{align} M11= 5869
代数余子式
- 计算行列式时,第 i 行 j 列的余子式需要乘以 ( − 1 ) i + j (-1)^{i+j} (−1)i+j
- 假设有代数余子式 M 11 : M_{11}: M11:
M 11 = + ∣ 5 6 8 9 ∣ \begin{align} M_{11}= + \begin{vmatrix} 5 & 6 \\ 8 & 9 \end{vmatrix} \end{align} M11=+ 5869 - 假设有代数余子式 M 12 : M_{12}: M12:
M 12 = − ∣ 5 6 8 9 ∣ \begin{align} M_{12}= - \begin{vmatrix} 5 & 6 \\ 8 & 9 \end{vmatrix} \end{align} M12=− 5869
线性空间
线性空间的定义:元素满足线性运算规则的集合
- 集合元素简称向量 ,但不一定指代一般含义的向量。
- 向量空间是一种特殊的线性空间 ,其中的元素满足加法/数乘封闭。
R 2 = { x y ∣ x , y ∈ R } \begin{align} \mathbb{R}^2=\left\{ \begin{bmatrix} x\\ y \end{bmatrix} \mid x,y\in \mathbb{R} \right\} \end{align} R2={xy∣x,y∈R} - 多项式空间:
P 2 = { a + b x + c x 2 ∣ a , b , c ∈ R } \begin{align} P_2=\{a+bx+cx^2 \mid a,b,c\in \mathbb{R}\} \end{align} P2={a+bx+cx2∣a,b,c∈R}
性质1:封闭性
- 加法和数乘封闭
u , v ∈ V ⇒ u + v ∈ V \begin{align} u,v\in V \Rightarrow u+v\in V \end{align} u,v∈V⇒u+v∈V
u ∈ V , c ∈ F ⇒ c u ∈ V \begin{align} u\in V,\ c\in F \Rightarrow cu\in V \end{align} u∈V, c∈F⇒cu∈V
性质2:定义完整,符合运算律
-
包含零元素 :
∃ 0 ∈ V , ∀ v ∈ V , v + 0 = v \begin{align} \exists 0\in V,\quad \forall v\in V,\quad v+0=v \end{align} ∃0∈V,∀v∈V,v+0=v
-
加法存在逆元:
∀ v ∈ V , ∃ − v ∈ V , v + ( − v ) = 0 \begin{align} \forall v\in V,\quad \exists -v\in V,\quad v+(-v)=0 \end{align} ∀v∈V,∃−v∈V,v+(−v)=0
- 满足交换律,结合率和分配律
u + v = v + u \begin{align} u+v=v+u \end{align} u+v=v+u
( u + v ) + w = u + ( v + w ) \begin{align} (u+v)+w=u+(v+w) \end{align} (u+v)+w=u+(v+w)
c ( u + v ) = c u + c v \begin{align} c(u+v)=cu+cv \end{align} c(u+v)=cu+cv
与向量空间的关系:向量空间是一种特殊的线性空间
向量空间
向量空间的定义:由向量组成的集合
向量空间的维度:向量空间中线性无关向量的个数
- 向量空间的维度 dim \dim dim 指的是向量空间中线性无关向量的个数 。
dim Null ( A ) = 1 \begin{align} \dim \operatorname{Null}(A)=1 \end{align} dimNull(A)=1
向量空间的基
定义:找出n个线性无关的向量可以张成该空间
- 性质1:找出n个向量可以张成空间V :
v 1 , v 2 , ⋯ , v n \begin{align} \mathbf{v}_1,\mathbf{v}_2,\cdots,\mathbf{v}_n \end{align} v1,v2,⋯,vn
V = span { v 1 , v 2 , ⋯ , v n } \begin{align} V=\operatorname{span}\{\mathbf{v}_1,\mathbf{v}_2,\cdots,\mathbf{v}_n\} \end{align} V=span{v1,v2,⋯,vn} - 性质2:任意一个向量都与其他向量线性无关 :
k 1 v 1 + k 2 v 2 + ⋯ + k n v n = 0 ⇒ k 1 = k 2 = ⋯ = k n = 0 \begin{align} k_1\mathbf{v}_1+k_2\mathbf{v}_2+\cdots+k_n\mathbf{v}_n=\mathbf{0}\Rightarrow k_1=k_2=\cdots=k_n=0 \end{align} k1v1+k2v2+⋯+knvn=0⇒k1=k2=⋯=kn=0
列空间
定义:矩阵A的列向量所张成的集合
- A的列空间指的是由A的列向量所组成的向量空间。
- 假设有如下矩阵 A A A:
A = 1 2 2 4 3 6 \begin{align} A= \begin{bmatrix} 1 & 2 \\ 2 & 4 \\ 3 & 6 \end{bmatrix} \end{align} A= 123246 - A的列空间就是两个列向量张成的向量空间 。
Col ( A ) = span { 1 2 3 , 2 4 6 } \begin{align} \operatorname{Col}(A)= \operatorname{span} \left\{ \begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix}, \begin{bmatrix} 2 \\ 4 \\ 6 \end{bmatrix} \right\} \end{align} Col(A)=span⎩ ⎨ ⎧ 123 , 246 ⎭ ⎬ ⎫ - 等价于:
Col ( A ) = { c 1 1 2 3 + c 2 2 4 6 ∣ c 1 , c 2 ∈ R } \begin{align}\operatorname{Col}(A)= \left\{ c_1 \begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix} + c_2 \begin{bmatrix} 2 \\ 4 \\ 6 \end{bmatrix} \mid c_1,c_2\in \mathbb{R} \right\} \end{align} Col(A)=⎩ ⎨ ⎧c1 123 +c2 246 ∣c1,c2∈R⎭ ⎬ ⎫
零空间
定义:在矩阵A作用下变成零向量的向量的集合
-
给定矩阵A:
A = 1 2 2 4 \begin{align} A= \begin{bmatrix} 1 & 2 \\ 2 & 4 \end{bmatrix} \end{align} A=1224
-
零空间的定义为:
Null ( A ) = { x ∣ A x = 0 } \begin{align} \operatorname{Null}(A) = \left\{ \mathbf{x}\mid A\mathbf{x}=\mathbf{0} \right\} \end{align} Null(A)={x∣Ax=0}
-
最终得到的零空间具体定义为:
Null ( A ) = { t − 2 1 ∣ t ∈ R } \begin{align} \operatorname{Null}(A) = \left\{ t \begin{bmatrix} -2 \\ 1 \end{bmatrix} \mid t\in\mathbb{R} \right\} \end{align} Null(A)={t−21∣t∈R}
-
含义:经过矩阵A的作用后, t − 2 , 1 t-2, 1 t−2,1这个方向的信息都会被丢失(坍缩为零向量)。
秩
定义:经过线性变换后保留多少维度的信息
- 线性无关的方向/向量数
- 非零子式最高阶数
性质
行秩等于列秩
秩-零定义:可以表达的向量空间的维度+丢失的向量空间的维度=全部的维度
- 列空间的维数+零空间的维数=n
rank ( A ) + nullity ( A ) = min ( n , m ) \begin{align} \operatorname{rank}(A)+\operatorname{nullity}(A)=\min(n,m) \end{align} rank(A)+nullity(A)=min(n,m) - 这里的维数指的是向量空间的维度(dim) ,等价于线性无关组的数量,Null(A)=1
Null ( A ) = span { 1 − 2 1 } \begin{align} \operatorname{Null}(A) = \operatorname{span} \left\{ \begin{bmatrix} 1\\ -2\\ 1 \end{bmatrix} \right\} \end{align} Null(A)=span⎩ ⎨ ⎧ 1−21 ⎭ ⎬ ⎫
向量运算
内积
内积的定义:向量的相似程度
a ⋅ b = ∥ a ∥ ∥ b ∥ cos θ \begin{align} \mathbf{a}\cdot\mathbf{b}=\|\mathbf{a}\|\|\mathbf{b}\|\cos\theta \end{align} a⋅b=∥a∥∥b∥cosθ
叉乘
叉乘的定义:向量所围成的"体积",使用行列式表示
- 在2D向量中:a和b 的叉乘表示向量a和b围成的平行四边形的面积 ,使用行列式 计算
∥ a × b ∥ = ∥ a ∥ ∥ b ∥ sin θ \begin{align} \|\mathbf{a}\times \mathbf{b}\|=\|\mathbf{a}\|\|\mathbf{b}\|\sin\theta \end{align} ∥a×b∥=∥a∥∥b∥sinθ - 在3D向量中:a,b和c的叉乘结果表示三个向量所围成的平行四面体的体积 ,使用行列式计算。
- 对于3D向量:a和b的叉乘表示的是平面的法向量
a × b = ∣ i j k a 1 a 2 a 3 b 1 b 2 b 3 ∣ \begin{align} \mathbf{a}\times \mathbf{b} =\begin{vmatrix} \mathbf{i} & \mathbf{j} & \mathbf{k} \\ a_1 & a_2 & a_3 \\ b_1 & b_2 & b_3 \end{vmatrix} \end{align} a×b= ia1b1ja2b2ka3b3
正交向量:向量内积为0
a ⊥ b ⟺ a ⋅ b = 0 \begin{align} \mathbf{a}\perp\mathbf{b}\Longleftrightarrow \mathbf{a}\cdot\mathbf{b}=0 \end{align} a⊥b⟺a⋅b=0
矩阵论
对称矩阵
定义: A = A T A=A^T A=AT
性质1:对称矩阵的特征值一定存在
性质2:对称矩阵的特征向量一定正交
设 (u,v) 是 (A) 的两个特征向量,对应不同特征值 ( λ \lambda λ, μ \mu μ):
A u = λ u , A v = μ v , λ ≠ μ Au=\lambda u,\quad Av=\mu v,\quad \lambda\neq \mu Au=λu,Av=μv,λ=μ
考虑内积 (u^TAv)。由 (Av=\mu v),有:
u T A v = u T ( μ v ) = μ u T v u^TAv=u^T(\mu v)=\mu u^Tv uTAv=uT(μv)=μuTv
另一方面,由于 (A=A^T),有:
u T A v = ( A T u ) T v = ( A u ) T v u^TAv=(A^Tu)^Tv=(Au)^Tv uTAv=(ATu)Tv=(Au)Tv
再由 (Au=\lambda u),得到:
( A u ) T v = ( λ u ) T v = λ u T v (Au)^Tv=(\lambda u)^Tv=\lambda u^Tv (Au)Tv=(λu)Tv=λuTv
因此:
λ u T v = μ u T v \lambda u^Tv=\mu u^Tv λuTv=μuTv
移项:
( λ − μ ) u T v = 0 (\lambda-\mu)u^Tv=0 (λ−μ)uTv=0
因为:
λ ≠ μ \lambda\neq \mu λ=μ
所以只能有:
u T v = 0 u^Tv=0 uTv=0
这说明 (u) 和 (v) 正交。
正交矩阵
定义:由单位正交向量所组成的矩阵
Q = q 1 q 2 ⋯ q n \begin{align} Q=\begin{bmatrix}\mathbf{q}_1 & \mathbf{q}_2 & \cdots & \mathbf{q}_n\end{bmatrix} \end{align} Q=q1q2⋯qn
性质:正交矩阵的转置=正交矩阵的逆
- 满足自己转置和自己相乘 为单位阵的矩阵。
Q T Q = I \begin{align} Q^TQ=I \end{align} QTQ=I - 等价于:
Q − 1 = Q T \begin{align} Q^{-1}=Q^T \end{align} Q−1=QT
正定矩阵
定义:使得任意非零向量的A叉乘结果大于0的对称矩阵
x T A x > 0 , x ≠ 0 \begin{align} \mathbf{x}^TA\mathbf{x}>0,\quad \mathbf{x}\neq \mathbf{0} \end{align} xTAx>0,x=0
性质1:特征值一定存在且大于0
A v = λ v , v ≠ 0 \begin{align} A\mathbf{v}=\lambda \mathbf{v},\quad \mathbf{v}\neq \mathbf{0} \end{align} Av=λv,v=0
性质2:一定可逆, det ( A ) > 0 \det(A)>0 det(A)>0
- 行列式的结果等于特征值的乘积:
det ( A ) = λ 1 λ 2 ⋯ λ n \begin{align} \det(A)=\lambda_1\lambda_2\cdots\lambda_n \end{align} det(A)=λ1λ2⋯λn
相似矩阵
定义
- A和B相似,指的是存在可逆矩阵P,使得:
B = P − 1 A P \begin{align} B=P^{-1}AP \end{align} B=P−1AP
A ∼ B \begin{align} A\sim B \end{align} A∼B
相似对角化:相似于对角化矩阵
- A和B相似,如果B是一个对角化矩阵,那么这个过程称为:相似对角化
意义1:同一个线性变换在新基下的矩阵表示
y new = P − 1 A P x new \begin{align} \mathbf{y}{\text{new}}=P^{-1}A P\mathbf{x}{\text{new}} \end{align} ynew=P−1APxnew
意义2:对于矩阵作用效果的分解
性质1:相似矩阵具有相同的秩、迹、行列式、特征值
- 理解:作用效果一致,只是坐标基不同,因此特征值(缩放程度),行列式和秩序(信息量)不会出现丢失。
性质2:相似矩阵可能具有不同的特征向量
- 不同坐标系下的基向量不一样,所以对应的特征向量也不同 。例如旋转90度的坐标基。
作用:简化幂函数的运算
A k = P D k P − 1 \begin{align} A^k=PD^kP^{-1} \end{align} Ak=PDkP−1
特征向量和特征值
矩阵分解
特征值分解
定义
- A有n个线性无关的向量,则A可以分解为以下形式:
A = P Λ P − 1 \begin{align} A=P\Lambda P^{-1} \end{align} A=PΛP−1 - 其中:
P = ( v 1 v 2 ⋯ v n ) \begin{align} P=\begin{pmatrix}v_1&v_2&\cdots&v_n\end{pmatrix} \end{align} P=(v1v2⋯vn)
Λ = ( λ 1 0 ⋯ 0 0 λ 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ λ n ) \begin{align} \Lambda=\begin{pmatrix}\lambda_1&0&\cdots&0\\0&\lambda_2&\cdots&0\\\vdots&\vdots&\ddots&\vdots\\0&0&\cdots&\lambda_n\end{pmatrix} \end{align} Λ= λ10⋮00λ2⋮0⋯⋯⋱⋯00⋮λn
意义1:同一个线性变换在单位正交特征向量基下的矩阵表示
- 观察:分解后的矩阵形式只和中间的对角矩阵有关 。
A k = P Λ k P − 1 \begin{align} A^k=P\Lambda^kP^{-1} \end{align} Ak=PΛkP−1
Λ k = diag ( λ 1 k , λ 2 k , ... , λ n k ) \begin{align} \Lambda^k=\operatorname{diag}(\lambda_1^k,\lambda_2^k,\dots,\lambda_n^k) \end{align} Λk=diag(λ1k,λ2k,...,λnk)
意义2:分解矩阵的作用效果 → \rightarrow → 切换坐标系-缩放坐标基-切回原坐标系
- 对于矩阵的效果进行分解。
换到特征向量坐标系 → 按特征值缩放 → 换回原坐标系 \begin{align} \text{换到特征向量坐标系}\rightarrow \text{按特征值缩放}\rightarrow \text{换回原坐标系} \end{align} 换到特征向量坐标系→按特征值缩放→换回原坐标系
条件:需要有足够的线性无关的特征向量
- 对于 n×n 矩阵,需要有 n 个线性无关特征向量:
A ∈ R n × n \begin{align} A\in\mathbb{R}^{n\times n} \end{align} A∈Rn×n
A 可特征值分解 ⟺ A 有 n 个线性无关特征向量 \begin{align} A\text{ 可特征值分解}\Longleftrightarrow A\text{ 有 }n\text{ 个线性无关特征向量} \end{align} A 可特征值分解⟺A 有 n 个线性无关特征向量
结论1:对于方阵,对称矩阵一定可以特征值分解
A = A T \begin{align} A=A^T \end{align} A=AT
A = Q Λ Q T \begin{align} A=Q\Lambda Q^T \end{align} A=QΛQT
结论2:对于非方阵,不可以特征值分解 (不符合特征向量的定义)
SVD分解
定义
- 对于 A A T AA^T AAT矩阵进行特征值计算,得到正交向量基矩阵 (左奇异矩阵)U
- 对于 A T A A^TA ATA矩阵进行特征值计算右奇异矩阵 。
A = U Σ V T \begin{align} A=U\Sigma V^T \end{align} A=UΣVT
U T U = I \begin{align} U^TU=I \end{align} UTU=I
Σ = ( σ 1 0 ⋯ 0 0 σ 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ ) \begin{align} \Sigma=\begin{pmatrix}\sigma_1&0&\cdots&0\\0&\sigma_2&\cdots&0\\\vdots&\vdots&\ddots&\vdots\end{pmatrix} \end{align} Σ= σ10⋮0σ2⋮⋯⋯⋱00⋮
V T V = I \begin{align} V^TV=I \end{align} VTV=I - 注意:奇异值是排序过的
特点:任意实矩阵都可以做 SVD 分解
含义:矩阵效果的分解:输入方向旋转 + 各方向缩放 + 输出方向旋转
作用:理解重要信息和进行信息压缩
A ≈ σ 1 u 1 v 1 T + σ 2 u 2 v 2 T + ⋯ + σ k u k v k T \begin{align} A\approx \sigma_1u_1v_1^T+\sigma_2u_2v_2^T+\cdots+\sigma_ku_kv_k^T \end{align} A≈σ1u1v1T+σ2u2v2T+⋯+σkukvkT
作用1:PCA
作用2:低rank近似
A ≈ U k Σ k V k T \begin{align} A\approx U_k\Sigma_kV_k^T \end{align} A≈UkΣkVkT
特征值分解vs奇异值分解
| 对比点 | 特征值分解 EVD | 奇异值分解 SVD |
|---|---|---|
| 分解形式 | (A=P\Lambda P^{-1}) | (A=U\Sigma V^T) |
| 适用对象 | 只适用于方阵 | 任意矩阵,包括非方阵 |
| 是否一定存在 | 不一定存在 | 一定存在 |
| 核心条件 | 方阵有足够多线性无关特征向量 | 任意矩阵都可以 |
| 中间矩阵含义 | (\Lambda) 是特征值矩阵 | (\Sigma) 是奇异值矩阵 |
| 数值性质 | 特征值可能为负数、复数 | 奇异值一定非负实数 |
| 方向含义 | 找到变换后方向不变的特征向量 | 找到输入空间和输出空间中的主要拉伸方向 |
| 几何解释 | 在特征向量方向上缩放 | 旋转/反射 (\rightarrow) 缩放 (\rightarrow) 旋转/反射 |
| 正交性 | 一般 § 不一定正交 | (U,V) 都是正交矩阵 |
| 稳定性 | 对一般矩阵不一定稳定 | 数值计算中通常更稳定 |
| 常见用途 | 对角化、矩阵幂、线性系统稳定性分析 | 降维、PCA、图像压缩、推荐系统、低秩近似 |
基变换:TODO
范数
注意:范数中对于每一个元素的计算都大于0
向量的范数
范数p
- 元素的p次方求和,最后取根号
矩阵范数
- 行范数:每一行的绝对值求和,然后取最大值
- 列范数:每一列的绝对值求和,然后取最大值
- F范数:类似向量的norm-2范数
- 谱范数