《机器学习数学基础》补充资料：过渡矩阵和坐标变换推导

尽管《机器学习数学基础》这本书，耗费了比较长的时间和精力，怎奈学识有限，错误难免。因此，除了在专门的网页（勘误和修订）中发布勘误和修订内容之外，对于重大错误，我还会以专题的形式发布，并做出更多的相关解释。

更欢迎有识之士、广大读者朋友，指出其中的错误。非常感谢大家的帮助。

在《机器学习数学基础》第29页到第30页，推导过渡矩阵和坐标变换的时候，原文有一些错误。下面将推导过程重新编写如下，并且增加一些更详细的说明。此说明没有写入原文，是为了协助理解这段推导而作。

针对性的修改，请参阅：勘误与修订

设 { α 1 , ⋯ , α n } \{\pmb{\alpha}_1, \cdots, \pmb{\alpha}_n\} {α1,⋯,αn}（ α i \pmb{\alpha}_i αi 表示列向量）是某个向量空间的一个基，则该空间中一个向量 O A → \overrightarrow{OA} OA 可以描述为：

O A → = x 1 α 1 + ⋯ + x n α n (1.3.4) \overrightarrow{OA} = x_1\pmb{\alpha}_1 + \cdots + x_n\pmb{\alpha}_n\tag{1.3.4} OA =x1α1+⋯+xnαn(1.3.4)

其中的 ( x 1 , ⋯ , x n ) (x_1, \cdots, x_n) (x1,⋯,xn) 即为向量 O A → \overrightarrow{OA} OA 在基 { α 1 , ⋯ , α n } \{\pmb{\alpha}_1, \cdots, \pmb{\alpha}_n\} {α1,⋯,αn} 的坐标。

如果有另外一个基 { β 1 , ⋯ , β n } \{\pmb{\beta}_1, \cdots, \pmb{\beta}_n\} {β1,⋯,βn}（ β i \pmb{\beta}_i βi 表示列向量），向量 O A → \overrightarrow{OA} OA 又描述为：

O A → = x 1 ′ β 1 + ⋯ + x n ′ β n (1.3.5) \overrightarrow{OA} = x_1'\pmb{\beta}_1 + \cdots + x_n'\pmb{\beta}_n\tag{1.3.5} OA =x1′β1+⋯+xn′βn(1.3.5)

那么，同一个向量空间的这两个基有没有关系呢？有。不要忘记，基是一个向量组，例如基 { β 1 , ⋯ , β n } \{\pmb{\beta}_1, \cdots, \pmb{\beta}_n\} {β1,⋯,βn} 中的每个向量也在此向量空间，所以可以用基 { α 1 , ⋯ , α n } \{\pmb{\alpha}_1, \cdots, \pmb{\alpha}_n\} {α1,⋯,αn} 线性表出，即：

{ β 1 = b 11 α 1 + ⋯ + b n 1 α n ⋮ β n = b 1 n α 1 + ⋯ + b n n α n \begin{cases}\begin{split}\pmb{\beta}1 &= b{11}\pmb{\alpha}1 + \cdots + b{n1}\pmb{\alpha}_n \\ \vdots \\\pmb{\beta}n &= b{1n}\pmb{\alpha}1 + \cdots + b{nn}\pmb{\alpha}_n \end{split}\end{cases} ⎩ ⎨ ⎧β1⋮βn=b11α1+⋯+bn1αn=b1nα1+⋯+bnnαn

以矩阵（这里提前使用了矩阵的概念，是因为本书已经在前言中声明，不假定读者完全没有学过高等数学。关于矩阵的更详细内容，请参阅第2章）的方式，可以表示为：

β 1 ⋯ β n \] = \[ α 1 ⋯ α n \] \[ b 11 ⋯ b 1 n ⋮ b n 1 ⋯ b n n \] (1.3.6) \\begin{equation} \\begin{split} \\begin{bmatrix}\\pmb{\\beta}_1\&\\cdots\&\\pmb{\\beta}_n\\end{bmatrix} = \\begin{bmatrix}\\pmb{\\alpha}_1\&\\cdots\&\\pmb{\\alpha}_n\\end{bmatrix}\\begin{bmatrix}b_{11} \& \\cdots \& b_{1n}\\\\\\vdots\\\\b_{n1} \& \\cdots \&b_{nn}\\end{bmatrix} \\end{split} \\end{equation}\\tag{1.3.6} \[β1⋯βn\]=\[α1⋯αn\] b11⋮bn1⋯⋯b1nbnn (1.3.6) 其中： P = \[ b 11 ⋯ b 1 n ⋮ b n 1 ⋯ b n n \] \\pmb P = \\begin{bmatrix}b_{11} \& \\cdots \& b_{1n}\\\\\\vdots\\\\b_{n1} \& \\cdots \&b_{nn}\\end{bmatrix} P= b11⋮bn1⋯⋯b1nbnn 称为基 { α 1 , ⋯   , α n } \\{\\pmb{\\alpha}_1, \\cdots, \\pmb{\\alpha}_n\\} {α1,⋯,αn} 向基 { β 1 , ⋯   , β n } \\{\\pmb{\\beta}_1, \\cdots, \\pmb{\\beta}_n\\} {β1,⋯,βn} 的**过渡矩阵**。显然，过渡矩阵实现了一个基向另一个基的变换。 > **定义** 在同一个向量空间，由基 { α 1 ⋯ α n } \\{\\pmb{\\alpha}_1\\quad\\cdots\\quad\\pmb{\\alpha}_n\\} {α1⋯αn} 向基 { β 1 ⋯ β n } \\{\\pmb{\\beta}_1\\quad\\cdots\\quad\\pmb{\\beta}_n\\} {β1⋯βn} 的过渡矩阵是 P \\pmb{P} P ，则： > \[ β 1 ⋯ β n \] = \[ α 1 ⋯ α n \] P \[\\pmb{\\beta}_1\\quad\\cdots\\quad\\pmb{\\beta}_n\] = \[\\pmb{\\alpha}_1\\quad\\cdots\\quad\\pmb{\\alpha}_n\]\\pmb P \[β1⋯βn\]=\[α1⋯αn\]P 根据（1.3.5）式，可得： x 1 ′ β 1 + ⋯ + x n ′ β n = x 1 ′ b 11 α 1 + ⋯ + x 1 ′ b n 1 α n + ⋯ + x n ′ b 1 n α 1 + ⋯ + x n ′ b n n α n = ( x 1 ′ b 11 + ⋯ + x n ′ b 1 n ) α 1 + ⋯ + ( x 1 ′ b n 1 + ⋯ + x n ′ b n n ) α n \\begin{split}x_1'\\pmb{\\beta}_1 + \\cdots + x_n'\\pmb{\\beta}_n \&= x_1'b_{11}\\pmb{\\alpha}_1 + \\cdots + x_1'b_{n1}\\pmb{\\alpha}_n \\\\ \& \\quad + \\cdots \\\\ \& \\quad + x_n'b_{1n}\\pmb{\\alpha}_1 + \\cdots + x_n'b_{nn}\\pmb{\\alpha}_n \\\\ \&=(x_1'b_{11}+ \\cdots + x_n'b_{1n})\\pmb{\\alpha}_1 \\\\ \& \\quad + \\cdots \\\\ \&\\quad+(x_1'b_{n1} + \\cdots + x_n'b_{nn})\\pmb{\\alpha}_n\\end{split} x1′β1+⋯+xn′βn=x1′b11α1+⋯+x1′bn1αn+⋯+xn′b1nα1+⋯+xn′bnnαn=(x1′b11+⋯+xn′b1n)α1+⋯+(x1′bn1+⋯+xn′bnn)αn （1.3.4）式 和（1.3.5）式描述的是同一个向量，所以： { x 1 = x 1 ′ b 11 + ⋯ + x n ′ b 1 n ⋮ x n = x 1 ′ b n 1 + ⋯ + x n ′ b n n \\begin{cases}\\begin{split}x_1 \&= x_1'b_{11} + \\cdots + x_n'b_{1n}\\\\\&\\vdots\\\\x_n \&= x_1'b_{n1} + \\cdots + x_n'b_{nn}\\end{split}\\end{cases} ⎩ ⎨ ⎧x1xn=x1′b11+⋯+xn′b1n⋮=x1′bn1+⋯+xn′bnn 如果写成矩阵形式，即： \[ x 1 ⋮ x n \] = \[ b 11 ⋯ b 1 n ⋮ b n 1 ⋯ b n n \] \[ x 1 ′ ⋮ x n ′ \] (1.3.7) \\begin{bmatrix}x_1\\\\\\vdots\\\\x_n\\end{bmatrix} = \\begin{bmatrix}b_{11} \& \\cdots \& b_{1n}\\\\\\vdots\\\\b_{n1} \& \\cdots \&b_{nn}\\end{bmatrix}\\begin{bmatrix}x_1'\\\\\\vdots\\\\x_n'\\end{bmatrix}\\tag{1.3.7} x1⋮xn = b11⋮bn1⋯⋯b1nbnn x1′⋮xn′ (1.3.7) 表示了在同一个向量空间中，向量在不同基下的坐标之间的变换关系，我们称为**坐标变换公式**。 > **定义** 在某个向量空间中，由基 { α 1 ⋯ α n } \\{\\pmb{\\alpha}_1\\quad\\cdots\\quad\\pmb{\\alpha}_n\\} {α1⋯αn} 向基 { β 1 ⋯ β n } \\{\\pmb{\\beta}_1\\quad\\cdots\\quad\\pmb{\\beta}_n\\} {β1⋯βn} 的过渡矩阵是 P \\pmb{P} P 。某向量在基 { α 1 ⋯ α n } \\{\\pmb{\\alpha}_1\\quad\\cdots\\quad\\pmb{\\alpha}_n\\} {α1⋯αn} 的坐标是 x = \[ x 1 ⋮ x n \] \\pmb{x}=\\begin{bmatrix}x_1\\\\\\vdots\\\\x_n\\end{bmatrix} x= x1⋮xn ，在基 { β 1 ⋯ β n } \\{\\pmb{\\beta}_1\\quad\\cdots\\quad\\pmb{\\beta}_n\\} {β1⋯βn} 的坐标是 x ′ = \[ x 1 ′ ⋮ x n ′ \] \\pmb x'=\\begin{bmatrix}x_1'\\\\\\vdots \\\\x_n'\\end{bmatrix} x′= x1′⋮xn′ ，这两组坐标之间的关系是： > x = P x ′ \\pmb x = \\pmb P \\pmb x' x=Px′ *** ** * ** *** 《机器学习数学基础》第29页到第30页的错误，是我讲授《机器学习数学基础》的课程时发现的。现在深刻体会到：**教，然后知不足**。教学相长，认真地研究教学，也是自我提升。