雅可比矩阵与向量函数的导数关系

假设

v1=[v11v12v13]∈R3 \mathbf{v}1 = \begin{bmatrix} v{11} \\ v_{12} \\ v_{13} \end{bmatrix} \in \mathbb{R}^3 v1= v11v12v13 ∈R3

v2=[v21v22v23]∈R3 \mathbf{v}2 = \begin{bmatrix} v{21} \\ v_{22} \\ v_{23} \end{bmatrix} \in \mathbb{R}^3 v2= v21v22v23 ∈R3

并且假设 v1\mathbf{v}_1v1 是 v2\mathbf{v}_2v2 的一个可微函数，即 v1=f(v2)\mathbf{v}_1 = \mathbf{f}(\mathbf{v}_2)v1=f(v2)，其中 f:R3→R3\mathbf{f}: \mathbb{R}^3 \to \mathbb{R}^3f:R3→R3。

雅可比矩阵定义

在这种情况下，导数 dv1dv2\dfrac{d\mathbf{v}_1}{d\mathbf{v}_2}dv2dv1 是一个 3×3 的矩阵，其元素为：

dv1dv2\]ij=∂v1i∂v2j,i,j=1,2,3 \\left\[ \\frac{d\\mathbf{v}_1}{d\\mathbf{v}_2} \\right\]_{ij} = \\frac{\\partial v_{1i}}{\\partial v_{2j}}, \\quad i,j = 1,2,3 \[dv2dv1\]ij=∂v2j∂v1i,i,j=1,2,3 也就是说，雅可比矩阵为： dv1dv2=\[∂v11∂v21∂v11∂v22∂v11∂v23∂v12∂v21∂v12∂v22∂v12∂v23∂v13∂v21∂v13∂v22∂v13∂v23\] \\frac{d\\mathbf{v}_1}{d\\mathbf{v}_2} =\\begin{bmatrix} \\dfrac{\\partial v_{11}}{\\partial v_{21}} \& \\dfrac{\\partial v_{11}}{\\partial v_{22}} \& \\dfrac{\\partial v_{11}}{\\partial v_{23}} \\\\ \\dfrac{\\partial v_{12}}{\\partial v_{21}} \& \\dfrac{\\partial v_{12}}{\\partial v_{22}} \& \\dfrac{\\partial v_{12}}{\\partial v_{23}} \\\\ \\dfrac{\\partial v_{13}}{\\partial v_{21}} \& \\dfrac{\\partial v_{13}}{\\partial v_{22}} \& \\dfrac{\\partial v_{13}}{\\partial v_{23}} \\end{bmatrix} dv2dv1= ∂v21∂v11∂v21∂v12∂v21∂v13∂v22∂v11∂v22∂v12∂v22∂v13∂v23∂v11∂v23∂v12∂v23∂v13 这个矩阵的每一行对应 v1\\mathbf{v}_1v1 的一个分量对整个 v2\\mathbf{v}_2v2 的梯度；每一列对应 v2\\mathbf{v}_2v2 的一个分量对整个 v1\\mathbf{v}_1v1 的偏导。 * 这种导数形式依赖于 **分子布局（numerator layout）**，这是工程和机器学习中常用的约定。 * 如果使用 **分母布局（denominator layout）**，结果会是上述矩阵的转置。但在大多数现代文献（尤其是深度学习、优化等领域），默认采用分子布局，即上面的形式。 *** ** * ** *** #### 问题：v1\\mathbf{v}_1v1 的第一个元素对 v2\\mathbf{v}_2v2 的三个元素的偏导数对应雅可比矩阵的哪部分 如果 v1=Rv2\\mathbf{v}_1 = R \\mathbf{v}_2v1=Rv2，其中 R∈R3×3R \\in \\mathbb{R}\^{3\\times3}R∈R3×3 是常数矩阵，那么： dv1dv2=R \\frac{d\\mathbf{v}_1}{d\\mathbf{v}_2} = R dv2dv1=R 因为： ∂(Rv2)i∂v2j=Rij \\frac{\\partial (R\\mathbf{v}_2)_i}{\\partial v_{2j}} = R_{ij} ∂v2j∂(Rv2)i=Rij *** ** * ** *** ##### 已知： v1=Rv2 \\mathbf{v}_1 = R \\mathbf{v}_2 v1=Rv2 其中： * v1,v2∈R3\\mathbf{v}_1, \\mathbf{v}_2 \\in \\mathbb{R}\^3v1,v2∈R3 是列向量， * R∈R3×3R \\in \\mathbb{R}\^{3 \\times 3}R∈R3×3 是一个常数矩阵（例如旋转矩阵）。 我们关注的是：**v1\\mathbf{v}_1v1 的第一个元素对 v2\\mathbf{v}_2v2 的三个元素的偏导数**，即： ∂v11∂v21,∂v11∂v22,∂v11∂v23 \\frac{\\partial v_{11}}{\\partial v_{21}},\\quad \\frac{\\partial v_{11}}{\\partial v_{22}},\\quad \\frac{\\partial v_{11}}{\\partial v_{23}} ∂v21∂v11,∂v22∂v11,∂v23∂v11 *** ** * ** *** #### 第一步：写出 v11v_{11}v11 设： R=\[r11r12r13r21r22r23r31r32r33\],v2=\[v21v22v23\] R = \\begin{bmatrix} r_{11} \& r_{12} \& r_{13} \\\\ r_{21} \& r_{22} \& r_{23} \\\\ r_{31} \& r_{32} \& r_{33} \\end{bmatrix}, \\quad \\mathbf{v}_2 = \\begin{bmatrix} v_{21} \\\\ v_{22} \\\\ v_{23} \\end{bmatrix} R= r11r21r31r12r22r32r13r23r33 ,v2= v21v22v23 那么： v1=Rv2=\[r11v21+r12v22+r13v23r21v21+r22v22+r23v23r31v21+r32v22+r33v23\] \\mathbf{v}_1 = R \\mathbf{v}_2 = \\begin{bmatrix} r_{11} v_{21} + r_{12} v_{22} + r_{13} v_{23} \\\\ r_{21} v_{21} + r_{22} v_{22} + r_{23} v_{23} \\\\ r_{31} v_{21} + r_{32} v_{22} + r_{33} v_{23} \\end{bmatrix} v1=Rv2= r11v21+r12v22+r13v23r21v21+r22v22+r23v23r31v21+r32v22+r33v23 所以第一个元素是： v11=r11v21+r12v22+r13v23 v_{11} = r_{11} v_{21} + r_{12} v_{22} + r_{13} v_{23} v11=r11v21+r12v22+r13v23 *** ** * ** *** #### 第二步：求偏导 因为 RRR 是常数矩阵，对 v2jv_{2j}v2j 求偏导时，其他项视为常数： ∂v11∂v21=r11,∂v11∂v22=r12,∂v11∂v23=r13 \\frac{\\partial v_{11}}{\\partial v_{21}} = r_{11}, \\quad \\frac{\\partial v_{11}}{\\partial v_{22}} = r_{12}, \\quad \\frac{\\partial v_{11}}{\\partial v_{23}} = r_{13} ∂v21∂v11=r11,∂v22∂v11=r12,∂v23∂v11=r13 *** ** * ** *** #### 结论 v1 的第一个元素对 v2 的三个元素的偏导数，正好是矩阵 R 的第一行： \\mathbf{v}_1\\text{ 的第一个元素对 }\\mathbf{v}_2\\text{ 的三个元素的偏导数，正好是矩阵 }R\\text{ 的第一行：} v1 的第一个元素对 v2 的三个元素的偏导数，正好是矩阵 R 的第一行： \[∂v11∂v21, ∂v11∂v22, ∂v11∂v23\]=\[r11r12r13\] \\left\[ \\frac{\\partial v_{11}}{\\partial v_{21}},\\ \\frac{\\partial v_{11}}{\\partial v_{22}},\\ \\frac{\\partial v_{11}}{\\partial v_{23}} \\right\] = \\begin{bmatrix} r_{11} \& r_{12} \& r_{13} \\end{bmatrix} \[∂v21∂v11, ∂v22∂v11, ∂v23∂v11\]=\[r11r12r13

这与前面所说的 Jacobian 矩阵（分子布局） 一致：

dv1dv2=R \frac{d\mathbf{v}_1}{d\mathbf{v}_2} = R dv2dv1=R

其中第 1 行就是上述三个偏导数组成的行向量。