线性代数|机器学习-P17矩阵A逆和奇异值的导数

文章目录

  • [1. A 2 A^2 A2关于时间的导数](#1. A 2 A^2 A2关于时间的导数)
  • [2. 奇异值 σ \sigma σ 关于时间的导数](#2. 奇异值 σ \sigma σ 关于时间的导数)
  • [3. 迭代特征值](#3. 迭代特征值)
    • [3.1 交替特征值](#3.1 交替特征值)
    • [3.2 S+T 矩阵最大特征值](#3.2 S+T 矩阵最大特征值)
  • [4. 瑞利商的思考](#4. 瑞利商的思考)
    • [4.1 瑞利商的定义](#4.1 瑞利商的定义)
    • [4.2 性质1](#4.2 性质1)

1. A 2 A^2 A2关于时间的导数

我们在已知 d A d t \frac{\mathrm{d}A}{\mathrm{d}t} dtdA的情况下,如何求解 d A 2 d t \frac{\mathrm{d}A^2}{\mathrm{d}t} dtdA2?
d A d t → d A 2 d t ? ? \begin{equation} \frac{\mathrm{d}A}{\mathrm{d}t}\rightarrow \frac{\mathrm{d}A^2}{\mathrm{d}t}?? \end{equation} dtdA→dtdA2??

  • 我们定义A的变化为 Δ A \Delta A ΔA,t 的变化为 Δ t \Delta t Δt,计算 d A 2 d t \frac{\mathrm{d}A^2}{\mathrm{d}t} dtdA2
    d A 2 d t = ( A + Δ A ) 2 − A 2 Δ t = A 2 + A Δ A + Δ A A + ( Δ A ) 2 − A 2 Δ t = A Δ A + Δ A A + ( Δ A ) 2 Δ t \begin{equation} \frac{\mathrm{d}A^2}{\mathrm{d}t}=\frac{(A+\Delta A)^2-A^2}{\Delta t}=\frac{A^2+A\Delta A+\Delta AA+(\Delta A)^2-A^2}{\Delta t}=\frac{A\Delta A+\Delta AA+(\Delta A)^2}{\Delta t} \end{equation} dtdA2=Δt(A+ΔA)2−A2=ΔtA2+AΔA+ΔAA+(ΔA)2−A2=ΔtAΔA+ΔAA+(ΔA)2
    d A 2 d t = A Δ A Δ t + Δ A Δ t A + Δ A Δ t Δ A = A d A d t + d A d t A \begin{equation} \frac{\mathrm{d}A^2}{\mathrm{d}t}=A\frac{\Delta A}{\Delta t}+\frac{\Delta A}{\Delta t}A+\frac{\Delta A}{\Delta t}\Delta A=A\frac{\mathrm{d}A}{\mathrm{d}t}+\frac{\mathrm{d}A}{\mathrm{d}t}A \end{equation} dtdA2=AΔtΔA+ΔtΔAA+ΔtΔAΔA=AdtdA+dtdAA
  • 整理可得结论如下:
    d A 2 d t = A d A d t + d A d t A \begin{equation} \frac{\mathrm{d}A^2}{\mathrm{d}t}=A\frac{\mathrm{d}A}{\mathrm{d}t}+\frac{\mathrm{d}A}{\mathrm{d}t}A \end{equation} dtdA2=AdtdA+dtdAA

2. 奇异值 σ \sigma σ 关于时间的导数

对于任意矩阵A来说,我们可以按照奇异值分解得到如下结果:
A v = u σ , u T u = 1 , v T v = 1 \begin{equation} Av=u\sigma,u^Tu=1,v^Tv=1 \end{equation} Av=uσ,uTu=1,vTv=1

  • 整理可得如下:
    σ = u T A v \begin{equation} \sigma=u^TAv \end{equation} σ=uTAv
  • 关于t求导如下:
    d σ d t = d u T d t A v + u T d A d t v + u T A d v d t \begin{equation} \frac{\mathrm{d}\sigma}{\mathrm{d}t}=\frac{\mathrm{d}u^T}{\mathrm{d}t}Av+u^T\frac{\mathrm{d}A}{\mathrm{d}t}v+u^TA\frac{\mathrm{d}v}{\mathrm{d}t} \end{equation} dtdσ=dtduTAv+uTdtdAv+uTAdtdv
  • 我们知道 A v = u σ ; u T A = σ v T Av=u\sigma;u^TA=\sigma v^T Av=uσ;uTA=σvT,整理可得
    d σ d t = σ d u T d t u + u T d A d t v + σ v T d v d t = σ ( d u T d t u + v T d v d t ) + u T d A d t v \begin{equation} \frac{\mathrm{d}\sigma}{\mathrm{d}t}=\sigma\frac{\mathrm{d}u^T}{\mathrm{d}t}u+u^T\frac{\mathrm{d}A}{\mathrm{d}t}v+\sigma v^T\frac{\mathrm{d}v}{\mathrm{d}t}=\sigma(\frac{\mathrm{d}u^T}{\mathrm{d}t}u+v^T\frac{\mathrm{d}v}{\mathrm{d}t})+u^T\frac{\mathrm{d}A}{\mathrm{d}t}v \end{equation} dtdσ=σdtduTu+uTdtdAv+σvTdtdv=σ(dtduTu+vTdtdv)+uTdtdAv
  • 我们知道 u T u = 1 u^Tu=1 uTu=1,两边求导可得:
    d u T d t u + u T d u d t = 0 \begin{equation} \frac{\mathrm{d}u^T}{\mathrm{d}t}u+u^T\frac{\mathrm{d}u}{\mathrm{d}t}=0 \end{equation} dtduTu+uTdtdu=0
  • 转置不影响求导顺序,既可以先转置后求导,也可以先求导再转置;
  • 对于标量来说, x T y = y T x x^Ty=y^Tx xTy=yTx,所以可得:
    d u T d t u = u T d u d t = 0 \begin{equation} \frac{\mathrm{d}u^T}{\mathrm{d}t}u=u^T\frac{\mathrm{d}u}{\mathrm{d}t}=0 \end{equation} dtduTu=uTdtdu=0
  • 所以最后可得如下结论:
    d σ d t = u T d A d t v \begin{equation} \frac{\mathrm{d}\sigma}{\mathrm{d}t}=u^T\frac{\mathrm{d}A}{\mathrm{d}t}v \end{equation} dtdσ=uTdtdAv

3. 迭代特征值

3.1 交替特征值

假设我们有一个对称矩阵S,在矩阵S的基础上加一个秩为1的矩阵得到 S 1 S_1 S1,我们定义矩阵S的特征值为 λ \lambda λ, u 2 u_2 u2为S矩阵中 λ 2 \lambda_2 λ2对应的特征向量,矩阵 S 1 S_1 S1对应的特征值为 μ \mu μ具体如下:
S → λ 1 , λ 2 , ⋯   , λ n ; S 1 → μ 1 , μ 2 , ⋯   , μ n ; \begin{equation} S\rightarrow \lambda_1,\lambda_2,\cdots,\lambda_n;S_1\rightarrow \mu_1,\mu_2,\cdots,\mu_n; \end{equation} S→λ1,λ2,⋯,λn;S1→μ1,μ2,⋯,μn;
S 1 = S + θ u 2 u 2 T \begin{equation} S_1=S+\theta u_2u_2^T \end{equation} S1=S+θu2u2T

  • 最后可以得到特征值交替结果,具体证明请看上一节内容
    μ 1 ≥ λ 1 ≥ μ 2 ≥ λ 2 ≥ ⋯ ≥ μ n ≥ λ n \begin{equation} \mu_1\ge \lambda_1 \ge \mu_2 \ge \lambda_2\ge \cdots\ge\mu_n\ge\lambda_n \end{equation} μ1≥λ1≥μ2≥λ2≥⋯≥μn≥λn

3.2 S+T 矩阵最大特征值

假设我们有一个对称矩阵S,一个秩为1的对称矩阵T,那么S+T特征值最大关系如下:

  • [仅供猜测] 对于原来的矩阵S来说,新增秩为1的矩阵T,得到S+T,那么T带来的效果最差是加1,好点的效果是消除部分行,所以最终得到的S+T的秩小于分别相加,同样特征值也如此。
    λ m a x ( S + T ) ≤ λ m a x ( S ) + λ m a x ( T ) \begin{equation} \lambda_{\mathrm{max}}(S+T)\leq \lambda_{\mathrm{max}}(S)+\lambda_{\mathrm{max}}(T) \end{equation} λmax(S+T)≤λmax(S)+λmax(T)

4. 瑞利商的思考

4.1 瑞利商的定义

假设A是n阶实对称矩阵,x是n维非零列向量,那么瑞利商表示如下:
R ( A , x ) = x T A x x T x \begin{equation} R(A,x)=\frac{x^TAx}{x^Tx} \end{equation} R(A,x)=xTxxTAx

4.2 性质1

记 λ m a x \lambda_{\mathrm{max}} λmax是矩阵A的最大特征值, λ m i n \lambda_{\mathrm{min}} λmin是矩阵A的最小特征值,则
m a x x ≠ 0 R ( A , x ) = λ m a x , m i n x ≠ 0 R ( A , x ) = λ m i n \begin{equation} \mathop{max}\limits_{x\neq 0}R(A,x)=\lambda_{\mathrm{max}},\mathop{min}\limits_{x\neq 0}R(A,x)=\lambda_{\mathrm{min}} \end{equation} x=0maxR(A,x)=λmax,x=0minR(A,x)=λmin

  • 若在 x T x = k x^Tx=k xTx=k条件下:
    m a x x T x = k x T A x = k λ m a x ; m i n x T x = k x T A x = k λ m i n ; \begin{equation} \mathop{max}\limits_{x^Tx=k}x^TAx=k\lambda_{\mathrm{max}};\mathop{min}\limits_{x^Tx=k}x^TAx=k\lambda_{\mathrm{min}}; \end{equation} xTx=kmaxxTAx=kλmax;xTx=kminxTAx=kλmin;
  • 若记 α 1 \alpha_1 α1为 λ m a x \lambda_{\mathrm{max}} λmax对于的单位特征向量, α 2 \alpha_2 α2为 λ m i n \lambda_{\mathrm{min}} λmin对于的单位特征向量,则
    当 x = k α 1 x=\sqrt{k}\alpha_1 x=k α1时,可取到 x T A x x^TAx xTAx的最大值 k λ m a x k\lambda_{\mathrm{max}} kλmax.
    当 x = k α 2 x=\sqrt{k}\alpha_2 x=k α2时,可取到 x T A x x^TAx xTAx的最小值 k λ m i n k\lambda_{\mathrm{min}} kλmin.
相关推荐
dundunmm1 小时前
机器学习之scikit-learn(简称 sklearn)
python·算法·机器学习·scikit-learn·sklearn·分类算法
古希腊掌管学习的神1 小时前
[机器学习]sklearn入门指南(1)
人工智能·python·算法·机器学习·sklearn
Schwertlilien2 小时前
图像处理-Ch5-图像复原与重建
c语言·开发语言·机器学习
南七澄江3 小时前
各种网站(学习资源及其他)
开发语言·网络·python·深度学习·学习·机器学习·ai
IT古董6 小时前
【漫话机器学习系列】014.贝叶斯法则(Bayes Theorem)
人工智能·机器学习
Crossoads7 小时前
【汇编语言】端口 —— 「从端口到时间:一文了解CMOS RAM与汇编指令的交汇」
android·java·汇编·深度学习·网络协议·机器学习·汇编语言
机智的叉烧9 小时前
前沿重器[57] | sigir24:大模型推荐系统的文本ID对齐学习
人工智能·学习·机器学习
云云32115 小时前
怎么通过亚矩阵云手机实现营销?
大数据·服务器·安全·智能手机·矩阵
姚先生9715 小时前
LeetCode 54. 螺旋矩阵 (C++实现)
c++·leetcode·矩阵