[线性代数]矩阵/向量求导为什么要区别分子布局和分母布局

不同的应用领域，对"导数"用途的侧重点完全不同。

这就像在世界上有的国家靠左行驶，有的靠右行驶。两者没有绝对的对错，只是为了适应不同的交通（运算）需求。

原因如下：

这是造成分裂的最主要原因。

目标： 我们求导的目的是为了利用梯度下降法（Gradient Descent）来更新参数。
痛点： 假设你的神经网络权值矩阵是一个的矩阵。计算出损失后，你需要更新：
需求： 为了能做减法，导数的形状必须和完全一样（也是）。
结论： 既然我要形状一样，那就强制规定：分母是什么形状，结果就是什么形状。这就是分母布局。如果不这样规定，每次更新参数前你都要手动转置一次，非常麻烦。

目标： 我们求导的目的是为了研究函数局部的线性逼近（Taylor 展开）或者变量之间的变换关系。
痛点： 考虑向量函数。微分的核心思想是用矩阵乘法来模拟函数变化：
需求： 根据矩阵乘法规则，如果是，是，为了让乘法成立，中间的导数矩阵必须是的。
结论： 这种的形式（行数等于分子维度，列数等于分母维度）就是雅可比矩阵（Jacobian） ，即分子布局。如果你用分母布局，这里的公式就要写成，数学家觉得这很不优雅。

当处理复合函数（层层嵌套）求导时，两种布局在书写公式时的体验完全不同。

（矩阵乘法直接相连，中间不需要转置，形式优美）。

这就造成了一个有趣的现象：

在推导复杂的数学理论时（如推导反向传播的公式本身），学者们可能倾向于用分子布局 （或混合布局）来保证推导过程的连贯性；但在编写代码库（如 PyTorch, TensorFlow）时，为了工程实现的便利，结果会强制转为分母布局。

这涉及到更底层的数学定义习惯。

由于历史上不同学派的大师（如 Magnus & Neudecker vs. 其它学派）使用了不同的向量定义，导致后世教材一直没能统一。

通过dydx=A⇒dy=Adx\frac{dy}{dx}=A \Rightarrow dy=A dxdxdy=A⇒dy=Adx判断

如果A的形状符合线代的数据习惯，那就是分子布局；如果是转置，那就是分母布局

通常来说，如果在做深度学习 ，默认分母布局 ，因为我们要的是梯度（Gradient）。如果在做纯数学推导或控制理论 ，默认分子布局，因为我们要的是雅可比矩阵（Jacobian）