线性代数|机器学习-P17矩阵A逆和奇异值的导数

文章目录

[1. A 2 A^2 A2关于时间的导数](#1. A 2 A^2 A2关于时间的导数)
[2. 奇异值 σ \sigma σ 关于时间的导数](#2. 奇异值 σ \sigma σ 关于时间的导数)
[3. 迭代特征值](#3. 迭代特征值)
- [3.1 交替特征值](#3.1 交替特征值)
- [3.2 S+T 矩阵最大特征值](#3.2 S+T 矩阵最大特征值)
[4. 瑞利商的思考](#4. 瑞利商的思考)
- [4.1 瑞利商的定义](#4.1 瑞利商的定义)
- [4.2 性质1](#4.2 性质1)

1. A 2 A^2 A2关于时间的导数

我们在已知 d A d t \frac{\mathrm{d}A}{\mathrm{d}t} dtdA的情况下，如何求解 d A 2 d t \frac{\mathrm{d}A^2}{\mathrm{d}t} dtdA2?
d A d t → d A 2 d t ? ? \begin{equation} \frac{\mathrm{d}A}{\mathrm{d}t}\rightarrow \frac{\mathrm{d}A^2}{\mathrm{d}t}?? \end{equation} dtdA→dtdA2??

我们定义A的变化为 Δ A \Delta A ΔA,t 的变化为 Δ t \Delta t Δt,计算 d A 2 d t \frac{\mathrm{d}A^2}{\mathrm{d}t} dtdA2
d A 2 d t = ( A + Δ A ) 2 − A 2 Δ t = A 2 + A Δ A + Δ A A + ( Δ A ) 2 − A 2 Δ t = A Δ A + Δ A A + ( Δ A ) 2 Δ t \begin{equation} \frac{\mathrm{d}A^2}{\mathrm{d}t}=\frac{(A+\Delta A)^2-A^2}{\Delta t}=\frac{A^2+A\Delta A+\Delta AA+(\Delta A)^2-A^2}{\Delta t}=\frac{A\Delta A+\Delta AA+(\Delta A)^2}{\Delta t} \end{equation} dtdA2=Δt(A+ΔA)2−A2=ΔtA2+AΔA+ΔAA+(ΔA)2−A2=ΔtAΔA+ΔAA+(ΔA)2
d A 2 d t = A Δ A Δ t + Δ A Δ t A + Δ A Δ t Δ A = A d A d t + d A d t A \begin{equation} \frac{\mathrm{d}A^2}{\mathrm{d}t}=A\frac{\Delta A}{\Delta t}+\frac{\Delta A}{\Delta t}A+\frac{\Delta A}{\Delta t}\Delta A=A\frac{\mathrm{d}A}{\mathrm{d}t}+\frac{\mathrm{d}A}{\mathrm{d}t}A \end{equation} dtdA2=AΔtΔA+ΔtΔAA+ΔtΔAΔA=AdtdA+dtdAA
整理可得结论如下：
d A 2 d t = A d A d t + d A d t A \begin{equation} \frac{\mathrm{d}A^2}{\mathrm{d}t}=A\frac{\mathrm{d}A}{\mathrm{d}t}+\frac{\mathrm{d}A}{\mathrm{d}t}A \end{equation} dtdA2=AdtdA+dtdAA

2. 奇异值 σ \sigma σ 关于时间的导数

对于任意矩阵A来说，我们可以按照奇异值分解得到如下结果：
A v = u σ , u T u = 1 , v T v = 1 \begin{equation} Av=u\sigma,u^Tu=1,v^Tv=1 \end{equation} Av=uσ,uTu=1,vTv=1

整理可得如下：
σ = u T A v \begin{equation} \sigma=u^TAv \end{equation} σ=uTAv
关于t求导如下：
d σ d t = d u T d t A v + u T d A d t v + u T A d v d t \begin{equation} \frac{\mathrm{d}\sigma}{\mathrm{d}t}=\frac{\mathrm{d}u^T}{\mathrm{d}t}Av+u^T\frac{\mathrm{d}A}{\mathrm{d}t}v+u^TA\frac{\mathrm{d}v}{\mathrm{d}t} \end{equation} dtdσ=dtduTAv+uTdtdAv+uTAdtdv
我们知道 A v = u σ ; u T A = σ v T Av=u\sigma;u^TA=\sigma v^T Av=uσ;uTA=σvT，整理可得
d σ d t = σ d u T d t u + u T d A d t v + σ v T d v d t = σ ( d u T d t u + v T d v d t ) + u T d A d t v \begin{equation} \frac{\mathrm{d}\sigma}{\mathrm{d}t}=\sigma\frac{\mathrm{d}u^T}{\mathrm{d}t}u+u^T\frac{\mathrm{d}A}{\mathrm{d}t}v+\sigma v^T\frac{\mathrm{d}v}{\mathrm{d}t}=\sigma(\frac{\mathrm{d}u^T}{\mathrm{d}t}u+v^T\frac{\mathrm{d}v}{\mathrm{d}t})+u^T\frac{\mathrm{d}A}{\mathrm{d}t}v \end{equation} dtdσ=σdtduTu+uTdtdAv+σvTdtdv=σ(dtduTu+vTdtdv)+uTdtdAv
我们知道 u T u = 1 u^Tu=1 uTu=1，两边求导可得：
d u T d t u + u T d u d t = 0 \begin{equation} \frac{\mathrm{d}u^T}{\mathrm{d}t}u+u^T\frac{\mathrm{d}u}{\mathrm{d}t}=0 \end{equation} dtduTu+uTdtdu=0
转置不影响求导顺序，既可以先转置后求导，也可以先求导再转置；
对于标量来说， x T y = y T x x^Ty=y^Tx xTy=yTx，所以可得：
d u T d t u = u T d u d t = 0 \begin{equation} \frac{\mathrm{d}u^T}{\mathrm{d}t}u=u^T\frac{\mathrm{d}u}{\mathrm{d}t}=0 \end{equation} dtduTu=uTdtdu=0
所以最后可得如下结论：
d σ d t = u T d A d t v \begin{equation} \frac{\mathrm{d}\sigma}{\mathrm{d}t}=u^T\frac{\mathrm{d}A}{\mathrm{d}t}v \end{equation} dtdσ=uTdtdAv

3. 迭代特征值

3.1 交替特征值

假设我们有一个对称矩阵S，在矩阵S的基础上加一个秩为1的矩阵得到 S 1 S_1 S1，我们定义矩阵S的特征值为 λ \lambda λ, u 2 u_2 u2为S矩阵中 λ 2 \lambda_2 λ2对应的特征向量,矩阵 S 1 S_1 S1对应的特征值为 μ \mu μ具体如下：
S → λ 1 , λ 2 , ⋯ , λ n ; S 1 → μ 1 , μ 2 , ⋯ , μ n ; \begin{equation} S\rightarrow \lambda_1,\lambda_2,\cdots,\lambda_n;S_1\rightarrow \mu_1,\mu_2,\cdots,\mu_n; \end{equation} S→λ1,λ2,⋯,λn;S1→μ1,μ2,⋯,μn;
S 1 = S + θ u 2 u 2 T \begin{equation} S_1=S+\theta u_2u_2^T \end{equation} S1=S+θu2u2T

最后可以得到特征值交替结果，具体证明请看上一节内容
μ 1 ≥ λ 1 ≥ μ 2 ≥ λ 2 ≥ ⋯ ≥ μ n ≥ λ n \begin{equation} \mu_1\ge \lambda_1 \ge \mu_2 \ge \lambda_2\ge \cdots\ge\mu_n\ge\lambda_n \end{equation} μ1≥λ1≥μ2≥λ2≥⋯≥μn≥λn

3.2 S+T 矩阵最大特征值

假设我们有一个对称矩阵S,一个秩为1的对称矩阵T，那么S+T特征值最大关系如下:

$仅供猜测\] 对于原来的矩阵S来说，新增秩为1的矩阵T，得到S+T，那么T带来的效果最差是加1，好点的效果是消除部分行，所以最终得到的S+T的秩小于分别相加，同样特征值也如此。 λ m a x ( S + T ) ≤ λ m a x ( S ) + λ m a x ( T ) \\begin{equation} \\lambda_{\\mathrm{max}}(S+T)\\leq \\lambda_{\\mathrm{max}}(S)+\\lambda_{\\mathrm{max}}(T) \\end{equation} λmax(S+T)≤λmax(S)+λmax(T)$

4.1 瑞利商的定义

假设A是n阶实对称矩阵，x是n维非零列向量，那么瑞利商表示如下：
R ( A , x ) = x T A x x T x \begin{equation} R(A,x)=\frac{x^TAx}{x^Tx} \end{equation} R(A,x)=xTxxTAx

4.2 性质1

记 λ m a x \lambda_{\mathrm{max}} λmax是矩阵A的最大特征值， λ m i n \lambda_{\mathrm{min}} λmin是矩阵A的最小特征值，则
m a x x ≠ 0 R ( A , x ) = λ m a x , m i n x ≠ 0 R ( A , x ) = λ m i n \begin{equation} \mathop{max}\limits_{x\neq 0}R(A,x)=\lambda_{\mathrm{max}},\mathop{min}\limits_{x\neq 0}R(A,x)=\lambda_{\mathrm{min}} \end{equation} x=0maxR(A,x)=λmax,x=0minR(A,x)=λmin

若在 x T x = k x^Tx=k xTx=k条件下：
m a x x T x = k x T A x = k λ m a x ; m i n x T x = k x T A x = k λ m i n ; \begin{equation} \mathop{max}\limits_{x^Tx=k}x^TAx=k\lambda_{\mathrm{max}};\mathop{min}\limits_{x^Tx=k}x^TAx=k\lambda_{\mathrm{min}}; \end{equation} xTx=kmaxxTAx=kλmax;xTx=kminxTAx=kλmin;
若记 α 1 \alpha_1 α1为 λ m a x \lambda_{\mathrm{max}} λmax对于的单位特征向量， α 2 \alpha_2 α2为 λ m i n \lambda_{\mathrm{min}} λmin对于的单位特征向量，则
当 x = k α 1 x=\sqrt{k}\alpha_1 x=k α1时，可取到 x T A x x^TAx xTAx的最大值 k λ m a x k\lambda_{\mathrm{max}} kλmax.
当 x = k α 2 x=\sqrt{k}\alpha_2 x=k α2时，可取到 x T A x x^TAx xTAx的最小值 k λ m i n k\lambda_{\mathrm{min}} kλmin.