雅可比矩阵与向量函数的导数关系

假设

v1=[v11v12v13]∈R3 \mathbf{v}1 = \begin{bmatrix} v{11} \\ v_{12} \\ v_{13} \end{bmatrix} \in \mathbb{R}^3 v1= v11v12v13 ∈R3

v2=[v21v22v23]∈R3 \mathbf{v}2 = \begin{bmatrix} v{21} \\ v_{22} \\ v_{23} \end{bmatrix} \in \mathbb{R}^3 v2= v21v22v23 ∈R3

并且假设 v1\mathbf{v}_1v1 是 v2\mathbf{v}_2v2 的一个可微函数,即 v1=f(v2)\mathbf{v}_1 = \mathbf{f}(\mathbf{v}_2)v1=f(v2),其中 f:R3→R3\mathbf{f}: \mathbb{R}^3 \to \mathbb{R}^3f:R3→R3。


雅可比矩阵定义

在这种情况下,导数 dv1dv2\dfrac{d\mathbf{v}_1}{d\mathbf{v}_2}dv2dv1 是一个 3×3 的矩阵,其元素为:

dv1dv2\]ij=∂v1i∂v2j,i,j=1,2,3 \\left\[ \\frac{d\\mathbf{v}_1}{d\\mathbf{v}_2} \\right\]_{ij} = \\frac{\\partial v_{1i}}{\\partial v_{2j}}, \\quad i,j = 1,2,3 \[dv2dv1\]ij=∂v2j∂v1i,i,j=1,2,3 也就是说,雅可比矩阵为: dv1dv2=\[∂v11∂v21∂v11∂v22∂v11∂v23∂v12∂v21∂v12∂v22∂v12∂v23∂v13∂v21∂v13∂v22∂v13∂v23\] \\frac{d\\mathbf{v}_1}{d\\mathbf{v}_2} =\\begin{bmatrix} \\dfrac{\\partial v_{11}}{\\partial v_{21}} \& \\dfrac{\\partial v_{11}}{\\partial v_{22}} \& \\dfrac{\\partial v_{11}}{\\partial v_{23}} \\\\ \\dfrac{\\partial v_{12}}{\\partial v_{21}} \& \\dfrac{\\partial v_{12}}{\\partial v_{22}} \& \\dfrac{\\partial v_{12}}{\\partial v_{23}} \\\\ \\dfrac{\\partial v_{13}}{\\partial v_{21}} \& \\dfrac{\\partial v_{13}}{\\partial v_{22}} \& \\dfrac{\\partial v_{13}}{\\partial v_{23}} \\end{bmatrix} dv2dv1= ∂v21∂v11∂v21∂v12∂v21∂v13∂v22∂v11∂v22∂v12∂v22∂v13∂v23∂v11∂v23∂v12∂v23∂v13 这个矩阵的每一行对应 v1\\mathbf{v}_1v1 的一个分量对整个 v2\\mathbf{v}_2v2 的梯度;每一列对应 v2\\mathbf{v}_2v2 的一个分量对整个 v1\\mathbf{v}_1v1 的偏导。 * 这种导数形式依赖于 **分子布局(numerator layout)**,这是工程和机器学习中常用的约定。 * 如果使用 **分母布局(denominator layout)**,结果会是上述矩阵的转置。但在大多数现代文献(尤其是深度学习、优化等领域),默认采用分子布局,即上面的形式。 *** ** * ** *** #### 问题:v1\\mathbf{v}_1v1 的第一个元素对 v2\\mathbf{v}_2v2 的三个元素的偏导数对应雅可比矩阵的哪部分 如果 v1=Rv2\\mathbf{v}_1 = R \\mathbf{v}_2v1=Rv2,其中 R∈R3×3R \\in \\mathbb{R}\^{3\\times3}R∈R3×3 是常数矩阵,那么: dv1dv2=R \\frac{d\\mathbf{v}_1}{d\\mathbf{v}_2} = R dv2dv1=R 因为: ∂(Rv2)i∂v2j=Rij \\frac{\\partial (R\\mathbf{v}_2)_i}{\\partial v_{2j}} = R_{ij} ∂v2j∂(Rv2)i=Rij *** ** * ** *** ##### 已知: v1=Rv2 \\mathbf{v}_1 = R \\mathbf{v}_2 v1=Rv2 其中: * v1,v2∈R3\\mathbf{v}_1, \\mathbf{v}_2 \\in \\mathbb{R}\^3v1,v2∈R3 是列向量, * R∈R3×3R \\in \\mathbb{R}\^{3 \\times 3}R∈R3×3 是一个常数矩阵(例如旋转矩阵)。 我们关注的是:**v1\\mathbf{v}_1v1 的第一个元素对 v2\\mathbf{v}_2v2 的三个元素的偏导数**,即: ∂v11∂v21,∂v11∂v22,∂v11∂v23 \\frac{\\partial v_{11}}{\\partial v_{21}},\\quad \\frac{\\partial v_{11}}{\\partial v_{22}},\\quad \\frac{\\partial v_{11}}{\\partial v_{23}} ∂v21∂v11,∂v22∂v11,∂v23∂v11 *** ** * ** *** #### 第一步:写出 v11v_{11}v11 设: R=\[r11r12r13r21r22r23r31r32r33\],v2=\[v21v22v23\] R = \\begin{bmatrix} r_{11} \& r_{12} \& r_{13} \\\\ r_{21} \& r_{22} \& r_{23} \\\\ r_{31} \& r_{32} \& r_{33} \\end{bmatrix}, \\quad \\mathbf{v}_2 = \\begin{bmatrix} v_{21} \\\\ v_{22} \\\\ v_{23} \\end{bmatrix} R= r11r21r31r12r22r32r13r23r33 ,v2= v21v22v23 那么: v1=Rv2=\[r11v21+r12v22+r13v23r21v21+r22v22+r23v23r31v21+r32v22+r33v23\] \\mathbf{v}_1 = R \\mathbf{v}_2 = \\begin{bmatrix} r_{11} v_{21} + r_{12} v_{22} + r_{13} v_{23} \\\\ r_{21} v_{21} + r_{22} v_{22} + r_{23} v_{23} \\\\ r_{31} v_{21} + r_{32} v_{22} + r_{33} v_{23} \\end{bmatrix} v1=Rv2= r11v21+r12v22+r13v23r21v21+r22v22+r23v23r31v21+r32v22+r33v23 所以第一个元素是: v11=r11v21+r12v22+r13v23 v_{11} = r_{11} v_{21} + r_{12} v_{22} + r_{13} v_{23} v11=r11v21+r12v22+r13v23 *** ** * ** *** #### 第二步:求偏导 因为 RRR 是常数矩阵,对 v2jv_{2j}v2j 求偏导时,其他项视为常数: ∂v11∂v21=r11,∂v11∂v22=r12,∂v11∂v23=r13 \\frac{\\partial v_{11}}{\\partial v_{21}} = r_{11}, \\quad \\frac{\\partial v_{11}}{\\partial v_{22}} = r_{12}, \\quad \\frac{\\partial v_{11}}{\\partial v_{23}} = r_{13} ∂v21∂v11=r11,∂v22∂v11=r12,∂v23∂v11=r13 *** ** * ** *** #### 结论 v1 的第一个元素对 v2 的三个元素的偏导数,正好是矩阵 R 的第一行: \\mathbf{v}_1\\text{ 的第一个元素对 }\\mathbf{v}_2\\text{ 的三个元素的偏导数,正好是矩阵 }R\\text{ 的第一行:} v1 的第一个元素对 v2 的三个元素的偏导数,正好是矩阵 R 的第一行: \[∂v11∂v21, ∂v11∂v22, ∂v11∂v23\]=\[r11r12r13\] \\left\[ \\frac{\\partial v_{11}}{\\partial v_{21}},\\ \\frac{\\partial v_{11}}{\\partial v_{22}},\\ \\frac{\\partial v_{11}}{\\partial v_{23}} \\right\] = \\begin{bmatrix} r_{11} \& r_{12} \& r_{13} \\end{bmatrix} \[∂v21∂v11, ∂v22∂v11, ∂v23∂v11\]=\[r11r12r13

这与前面所说的 Jacobian 矩阵(分子布局) 一致:

dv1dv2=R \frac{d\mathbf{v}_1}{d\mathbf{v}_2} = R dv2dv1=R

其中第 1 行就是上述三个偏导数组成的行向量。

相关推荐
charlee441 个月前
最小二乘问题详解6:梯度下降法
c++·梯度下降·雅可比矩阵·非线性最小二乘·参数拟合
charlee442 个月前
最小二乘问题详解5:非线性最小二乘求解实例
参数估计·雅可比矩阵·曲线拟合·非线性最小二乘·gauss-newton
charlee442 个月前
最小二乘问题详解4:非线性最小二乘
参数估计·雅可比矩阵·非线性最小二乘·gauss-newton·迭代优化
Yngz_Miao2 年前
【Math】导数、梯度、雅可比矩阵、黑塞矩阵
梯度·导数·雅可比矩阵·黑塞矩阵·math