线性代数|机器学习-P17矩阵A逆和奇异值的导数

文章目录

  • [1. A 2 A^2 A2关于时间的导数](#1. A 2 A^2 A2关于时间的导数)
  • [2. 奇异值 σ \sigma σ 关于时间的导数](#2. 奇异值 σ \sigma σ 关于时间的导数)
  • [3. 迭代特征值](#3. 迭代特征值)
    • [3.1 交替特征值](#3.1 交替特征值)
    • [3.2 S+T 矩阵最大特征值](#3.2 S+T 矩阵最大特征值)
  • [4. 瑞利商的思考](#4. 瑞利商的思考)
    • [4.1 瑞利商的定义](#4.1 瑞利商的定义)
    • [4.2 性质1](#4.2 性质1)

1. A 2 A^2 A2关于时间的导数

我们在已知 d A d t \frac{\mathrm{d}A}{\mathrm{d}t} dtdA的情况下,如何求解 d A 2 d t \frac{\mathrm{d}A^2}{\mathrm{d}t} dtdA2?
d A d t → d A 2 d t ? ? \begin{equation} \frac{\mathrm{d}A}{\mathrm{d}t}\rightarrow \frac{\mathrm{d}A^2}{\mathrm{d}t}?? \end{equation} dtdA→dtdA2??

  • 我们定义A的变化为 Δ A \Delta A ΔA,t 的变化为 Δ t \Delta t Δt,计算 d A 2 d t \frac{\mathrm{d}A^2}{\mathrm{d}t} dtdA2
    d A 2 d t = ( A + Δ A ) 2 − A 2 Δ t = A 2 + A Δ A + Δ A A + ( Δ A ) 2 − A 2 Δ t = A Δ A + Δ A A + ( Δ A ) 2 Δ t \begin{equation} \frac{\mathrm{d}A^2}{\mathrm{d}t}=\frac{(A+\Delta A)^2-A^2}{\Delta t}=\frac{A^2+A\Delta A+\Delta AA+(\Delta A)^2-A^2}{\Delta t}=\frac{A\Delta A+\Delta AA+(\Delta A)^2}{\Delta t} \end{equation} dtdA2=Δt(A+ΔA)2−A2=ΔtA2+AΔA+ΔAA+(ΔA)2−A2=ΔtAΔA+ΔAA+(ΔA)2
    d A 2 d t = A Δ A Δ t + Δ A Δ t A + Δ A Δ t Δ A = A d A d t + d A d t A \begin{equation} \frac{\mathrm{d}A^2}{\mathrm{d}t}=A\frac{\Delta A}{\Delta t}+\frac{\Delta A}{\Delta t}A+\frac{\Delta A}{\Delta t}\Delta A=A\frac{\mathrm{d}A}{\mathrm{d}t}+\frac{\mathrm{d}A}{\mathrm{d}t}A \end{equation} dtdA2=AΔtΔA+ΔtΔAA+ΔtΔAΔA=AdtdA+dtdAA
  • 整理可得结论如下:
    d A 2 d t = A d A d t + d A d t A \begin{equation} \frac{\mathrm{d}A^2}{\mathrm{d}t}=A\frac{\mathrm{d}A}{\mathrm{d}t}+\frac{\mathrm{d}A}{\mathrm{d}t}A \end{equation} dtdA2=AdtdA+dtdAA

2. 奇异值 σ \sigma σ 关于时间的导数

对于任意矩阵A来说,我们可以按照奇异值分解得到如下结果:
A v = u σ , u T u = 1 , v T v = 1 \begin{equation} Av=u\sigma,u^Tu=1,v^Tv=1 \end{equation} Av=uσ,uTu=1,vTv=1

  • 整理可得如下:
    σ = u T A v \begin{equation} \sigma=u^TAv \end{equation} σ=uTAv
  • 关于t求导如下:
    d σ d t = d u T d t A v + u T d A d t v + u T A d v d t \begin{equation} \frac{\mathrm{d}\sigma}{\mathrm{d}t}=\frac{\mathrm{d}u^T}{\mathrm{d}t}Av+u^T\frac{\mathrm{d}A}{\mathrm{d}t}v+u^TA\frac{\mathrm{d}v}{\mathrm{d}t} \end{equation} dtdσ=dtduTAv+uTdtdAv+uTAdtdv
  • 我们知道 A v = u σ ; u T A = σ v T Av=u\sigma;u^TA=\sigma v^T Av=uσ;uTA=σvT,整理可得
    d σ d t = σ d u T d t u + u T d A d t v + σ v T d v d t = σ ( d u T d t u + v T d v d t ) + u T d A d t v \begin{equation} \frac{\mathrm{d}\sigma}{\mathrm{d}t}=\sigma\frac{\mathrm{d}u^T}{\mathrm{d}t}u+u^T\frac{\mathrm{d}A}{\mathrm{d}t}v+\sigma v^T\frac{\mathrm{d}v}{\mathrm{d}t}=\sigma(\frac{\mathrm{d}u^T}{\mathrm{d}t}u+v^T\frac{\mathrm{d}v}{\mathrm{d}t})+u^T\frac{\mathrm{d}A}{\mathrm{d}t}v \end{equation} dtdσ=σdtduTu+uTdtdAv+σvTdtdv=σ(dtduTu+vTdtdv)+uTdtdAv
  • 我们知道 u T u = 1 u^Tu=1 uTu=1,两边求导可得:
    d u T d t u + u T d u d t = 0 \begin{equation} \frac{\mathrm{d}u^T}{\mathrm{d}t}u+u^T\frac{\mathrm{d}u}{\mathrm{d}t}=0 \end{equation} dtduTu+uTdtdu=0
  • 转置不影响求导顺序,既可以先转置后求导,也可以先求导再转置;
  • 对于标量来说, x T y = y T x x^Ty=y^Tx xTy=yTx,所以可得:
    d u T d t u = u T d u d t = 0 \begin{equation} \frac{\mathrm{d}u^T}{\mathrm{d}t}u=u^T\frac{\mathrm{d}u}{\mathrm{d}t}=0 \end{equation} dtduTu=uTdtdu=0
  • 所以最后可得如下结论:
    d σ d t = u T d A d t v \begin{equation} \frac{\mathrm{d}\sigma}{\mathrm{d}t}=u^T\frac{\mathrm{d}A}{\mathrm{d}t}v \end{equation} dtdσ=uTdtdAv

3. 迭代特征值

3.1 交替特征值

假设我们有一个对称矩阵S,在矩阵S的基础上加一个秩为1的矩阵得到 S 1 S_1 S1,我们定义矩阵S的特征值为 λ \lambda λ, u 2 u_2 u2为S矩阵中 λ 2 \lambda_2 λ2对应的特征向量,矩阵 S 1 S_1 S1对应的特征值为 μ \mu μ具体如下:
S → λ 1 , λ 2 , ⋯   , λ n ; S 1 → μ 1 , μ 2 , ⋯   , μ n ; \begin{equation} S\rightarrow \lambda_1,\lambda_2,\cdots,\lambda_n;S_1\rightarrow \mu_1,\mu_2,\cdots,\mu_n; \end{equation} S→λ1,λ2,⋯,λn;S1→μ1,μ2,⋯,μn;
S 1 = S + θ u 2 u 2 T \begin{equation} S_1=S+\theta u_2u_2^T \end{equation} S1=S+θu2u2T

  • 最后可以得到特征值交替结果,具体证明请看上一节内容
    μ 1 ≥ λ 1 ≥ μ 2 ≥ λ 2 ≥ ⋯ ≥ μ n ≥ λ n \begin{equation} \mu_1\ge \lambda_1 \ge \mu_2 \ge \lambda_2\ge \cdots\ge\mu_n\ge\lambda_n \end{equation} μ1≥λ1≥μ2≥λ2≥⋯≥μn≥λn

3.2 S+T 矩阵最大特征值

假设我们有一个对称矩阵S,一个秩为1的对称矩阵T,那么S+T特征值最大关系如下:

  • [仅供猜测] 对于原来的矩阵S来说,新增秩为1的矩阵T,得到S+T,那么T带来的效果最差是加1,好点的效果是消除部分行,所以最终得到的S+T的秩小于分别相加,同样特征值也如此。
    λ m a x ( S + T ) ≤ λ m a x ( S ) + λ m a x ( T ) \begin{equation} \lambda_{\mathrm{max}}(S+T)\leq \lambda_{\mathrm{max}}(S)+\lambda_{\mathrm{max}}(T) \end{equation} λmax(S+T)≤λmax(S)+λmax(T)

4. 瑞利商的思考

4.1 瑞利商的定义

假设A是n阶实对称矩阵,x是n维非零列向量,那么瑞利商表示如下:
R ( A , x ) = x T A x x T x \begin{equation} R(A,x)=\frac{x^TAx}{x^Tx} \end{equation} R(A,x)=xTxxTAx

4.2 性质1

记 λ m a x \lambda_{\mathrm{max}} λmax是矩阵A的最大特征值, λ m i n \lambda_{\mathrm{min}} λmin是矩阵A的最小特征值,则
m a x x ≠ 0 R ( A , x ) = λ m a x , m i n x ≠ 0 R ( A , x ) = λ m i n \begin{equation} \mathop{max}\limits_{x\neq 0}R(A,x)=\lambda_{\mathrm{max}},\mathop{min}\limits_{x\neq 0}R(A,x)=\lambda_{\mathrm{min}} \end{equation} x=0maxR(A,x)=λmax,x=0minR(A,x)=λmin

  • 若在 x T x = k x^Tx=k xTx=k条件下:
    m a x x T x = k x T A x = k λ m a x ; m i n x T x = k x T A x = k λ m i n ; \begin{equation} \mathop{max}\limits_{x^Tx=k}x^TAx=k\lambda_{\mathrm{max}};\mathop{min}\limits_{x^Tx=k}x^TAx=k\lambda_{\mathrm{min}}; \end{equation} xTx=kmaxxTAx=kλmax;xTx=kminxTAx=kλmin;
  • 若记 α 1 \alpha_1 α1为 λ m a x \lambda_{\mathrm{max}} λmax对于的单位特征向量, α 2 \alpha_2 α2为 λ m i n \lambda_{\mathrm{min}} λmin对于的单位特征向量,则
    当 x = k α 1 x=\sqrt{k}\alpha_1 x=k α1时,可取到 x T A x x^TAx xTAx的最大值 k λ m a x k\lambda_{\mathrm{max}} kλmax.
    当 x = k α 2 x=\sqrt{k}\alpha_2 x=k α2时,可取到 x T A x x^TAx xTAx的最小值 k λ m i n k\lambda_{\mathrm{min}} kλmin.
相关推荐
AI街潜水的八角1 小时前
基于C++的决策树C4.5机器学习算法(不调包)
c++·算法·决策树·机器学习
喵~来学编程啦1 小时前
【论文精读】LPT: Long-tailed prompt tuning for image classification
人工智能·深度学习·机器学习·计算机视觉·论文笔记
Chef_Chen3 小时前
从0开始学习机器学习--Day13--神经网络如何处理复杂非线性函数
神经网络·学习·机器学习
Troc_wangpeng3 小时前
R language 关于二维平面直角坐标系的制作
开发语言·机器学习
-Nemophilist-3 小时前
机器学习与深度学习-1-线性回归从零开始实现
深度学习·机器学习·线性回归
艾派森4 小时前
大数据分析案例-基于随机森林算法的智能手机价格预测模型
人工智能·python·随机森林·机器学习·数据挖掘
5 小时前
开源竞争-数据驱动成长-11/05-大专生的思考
人工智能·笔记·学习·算法·机器学习
忘梓.5 小时前
划界与分类的艺术:支持向量机(SVM)的深度解析
机器学习·支持向量机·分类
Chef_Chen5 小时前
从0开始机器学习--Day17--神经网络反向传播作业
python·神经网络·机器学习
MarkHD6 小时前
第十一天 线性代数基础
线性代数·决策树·机器学习