矩阵微积分的链式法则（chain rule）

矩阵微积分的链式法则（chain rule）与标量情况一样，用于求复合函数的导数，但由于涉及矩阵和向量的求导，维度匹配和布局约定（numerator-layout vs. denominator-layout）必须格外小心。下面给出常见的三种场景，并分别给出链式法则的显式表达。

\\frac{\\partial L}{\\partial X_{ij}} = \\sum_{k=1}^{m}\\sum_{l=1}^{n} \\frac{\\partial L}{\\partial Y_{kl}}\\frac{\\partial Y_{kl}}{\\partial X_{ij}}.

写成"向量化"形式（vec 算子按列堆叠）：

\\frac{\\partial L}{\\partial \\operatorname{vec}(X)} = \\left(\\frac{\\partial \\operatorname{vec}(Y)}{\\partial \\operatorname{vec}(X)}\\right)\^\\top \\frac{\\partial L}{\\partial \\operatorname{vec}(Y)}.

注意：

分子布局（numerator layout）下，(\frac{\partial \operatorname{vec}(Y)}{\partial \operatorname{vec}(X)}) 是 ((mn)\times(pq)) 的 Jacobian；
转置的出现取决于你采用的布局约定，务必维度匹配。

\\frac{\\partial z}{\\partial x\^\\top} = \\frac{\\partial z}{\\partial y\^\\top} \\frac{\\partial y}{\\partial x\^\\top},

其中

若用分母布局（denominator layout），则写作

\\frac{\\partial z}{\\partial x} = \\left(\\frac{\\partial y}{\\partial x}\\right)\^\\top \\frac{\\partial z}{\\partial y}.

设

(Z = G(Y)) 且 (Y = F(X))，
其中 (X \in \mathbb{R}^{p\times q})，(Y \in \mathbb{R}^{m\times n})，(Z \in \mathbb{R}^{r\times s})。
则

\\frac{\\partial \\operatorname{vec}(Z)}{\\partial \\operatorname{vec}(X)} = \\frac{\\partial \\operatorname{vec}(Z)}{\\partial \\operatorname{vec}(Y)} \\frac{\\partial \\operatorname{vec}(Y)}{\\partial \\operatorname{vec}(X)}.

记忆技巧

"维度从左到右连乘"：

小例子

设

(L = \tfrac{1}{2}|Y|_F^2)，
(Y = AXB)，(A,B) 为常数矩阵，
则 $\\frac{\\partial L}{\\partial X} = A\^\\top Y B\^\\top,$ 可直接用上述链式法则验证：
(\frac{\partial L}{\partial Y} = Y)，
(\frac{\partial \operatorname{vec}(Y)}{\partial \operatorname{vec}(X)} = B^\top \otimes A)，
于是 $\\operatorname{vec}!\\left(\\frac{\\partial L}{\\partial X}\\right) = (B \\otimes A\^\\top)\\operatorname{vec}(Y) = \\operatorname{vec}(A\^\\top Y B\^\\top).$

注： AI写的，请大家审阅！