矩阵微积分的链式法则(chain rule)

矩阵微积分的链式法则(chain rule)与标量情况一样,用于求复合函数的导数,但由于涉及矩阵和向量的求导,维度匹配和布局约定(numerator-layout vs. denominator-layout)必须格外小心。下面给出常见的三种场景,并分别给出链式法则的显式表达。


  1. 标量对矩阵的链式法则
  • 标量函数 (L) 依赖于矩阵变量 (Y \in \mathbb{R}^{m\times n});
  • 而 (Y) 又是矩阵变量 (X \in \mathbb{R}^{p\times q}) 的函数:(Y = F(X))。

\\frac{\\partial L}{\\partial X_{ij}} = \\sum_{k=1}^{m}\\sum_{l=1}^{n} \\frac{\\partial L}{\\partial Y_{kl}}\\frac{\\partial Y_{kl}}{\\partial X_{ij}}.

写成"向量化"形式(vec 算子按列堆叠):

\\frac{\\partial L}{\\partial \\operatorname{vec}(X)} = \\left(\\frac{\\partial \\operatorname{vec}(Y)}{\\partial \\operatorname{vec}(X)}\\right)\^\\top \\frac{\\partial L}{\\partial \\operatorname{vec}(Y)}.

注意:

  • 分子布局(numerator layout)下,(\frac{\partial \operatorname{vec}(Y)}{\partial \operatorname{vec}(X)}) 是 ((mn)\times(pq)) 的 Jacobian;
  • 转置的出现取决于你采用的布局约定,务必维度匹配。

  1. 向量对向量的链式法则
  • 向量函数 (z \in \mathbb{R}^{r}) 依赖于向量 (y \in \mathbb{R}^{m});
  • 而 (y) 又依赖于向量 (x \in \mathbb{R}^{n}):(y = f(x))。

\\frac{\\partial z}{\\partial x\^\\top} = \\frac{\\partial z}{\\partial y\^\\top} \\frac{\\partial y}{\\partial x\^\\top},

其中

  • (\frac{\partial z}{\partial y^\top}) 是 (r \times m);
  • (\frac{\partial y}{\partial x^\top}) 是 (m \times n);
  • 乘积给出 (r \times n) 的 Jacobian (\frac{\partial z}{\partial x^\top})。

若用分母布局(denominator layout),则写作

\\frac{\\partial z}{\\partial x} = \\left(\\frac{\\partial y}{\\partial x}\\right)\^\\top \\frac{\\partial z}{\\partial y}.


  1. 矩阵对矩阵的"完全链式法则"
    当外层函数本身也是矩阵值,且内层函数也是矩阵值时,最保险的做法是向量化:

  • (Z = G(Y)) 且 (Y = F(X)),
    其中 (X \in \mathbb{R}^{p\times q}),(Y \in \mathbb{R}^{m\times n}),(Z \in \mathbb{R}^{r\times s})。

\\frac{\\partial \\operatorname{vec}(Z)}{\\partial \\operatorname{vec}(X)} = \\frac{\\partial \\operatorname{vec}(Z)}{\\partial \\operatorname{vec}(Y)} \\frac{\\partial \\operatorname{vec}(Y)}{\\partial \\operatorname{vec}(X)}.

  • 左侧是 ((rs)\times(pq)) 的 Jacobian;
  • 右侧两个因子分别是 ((rs)\times(mn)) 与 ((mn)\times(pq)),维度恰好可乘。

记忆技巧

"维度从左到右连乘":

  • 若使用分子布局,链式法则的 Jacobian 顺序与函数复合顺序相同(类比标量链式法则)。
  • 若使用分母布局,需要转置中间 Jacobian。
    无论哪种约定,务必先固定一种,再检查维度是否匹配。

小例子

  • (L = \tfrac{1}{2}|Y|_F^2),
  • (Y = AXB),(A,B) 为常数矩阵,

    \\frac{\\partial L}{\\partial X} = A\^\\top Y B\^\\top,

    可直接用上述链式法则验证:
  • (\frac{\partial L}{\partial Y} = Y),
  • (\frac{\partial \operatorname{vec}(Y)}{\partial \operatorname{vec}(X)} = B^\top \otimes A),
  • 于是

    \\operatorname{vec}!\\left(\\frac{\\partial L}{\\partial X}\\right) = (B \\otimes A\^\\top)\\operatorname{vec}(Y) = \\operatorname{vec}(A\^\\top Y B\^\\top).


注: AI写的,请大家审阅!

相关推荐
小何code10 分钟前
人工智能【第8篇】监督学习实战:线性回归与逻辑回归算法详解(万字长文+完整代码实现)
人工智能·python·学习·机器学习·逻辑回归·线性回归
AI科技星20 分钟前
全域数学·第卷:场计算机卷(场空间计算机)【乖乖数学】
java·开发语言·人工智能·算法·机器学习·数学建模·数据挖掘
Deepoch21 分钟前
数学模型驱动:Deepoc 低幻觉数学大模型助力发动机全周期智能优化
人工智能·算法·机器学习·deepoc·数学大模型·低幻觉
AI科技星35 分钟前
《全域数学》第三卷:代数原本 · 全书详述【乖乖数学】
开发语言·人工智能·机器学习·数学建模
娃娃略1 小时前
Frame
人工智能·深度学习·机器学习
做cv的小昊2 小时前
【TJU】研究生应用统计学课程笔记(6)——第二章 参数估计(2.4 区间估计)
人工智能·笔记·线性代数·算法·机器学习·数学建模·概率论
Echo_NGC22372 小时前
【论文解读】Attention Is All You Need —— AI 时代的“开山之作“,经典中的经典(transformer小白导读)
人工智能·python·深度学习·神经网络·机器学习·conda·transformer
falldeep2 小时前
五分钟了解OpenClaw底层架构
人工智能·算法·机器学习·架构
FserSuN2 小时前
Machine Learning Specialization - Week 1, 1-8学习总结
人工智能·学习·机器学习
weixin_446260852 小时前
模型能力深度对决:GPT-4o、Claude 3.5和DeepSeek V系列模型的横向评测与未来趋势洞察
人工智能·算法·机器学习