机器学习线性代数--(10)基变换：在不同坐标系之间切换

从几何视角理解同一个向量在不同基底下的不同"语言"

在前几讲中，我们一直默认使用标准基 i ^ = [ 1 0 ] , j ^ = [ 0 1 ] \hat{i} = \begin{bmatrix}1\\0\end{bmatrix}, \hat{j} = \begin{bmatrix}0\\1\end{bmatrix} i^=[10],j^=[01] 来描述向量。但任何向量空间都有无穷多组基，同一个向量在不同基下有不同的坐标表示。基变换就是帮助我们在这多种"语言"之间进行翻译的工具。

10.1 一个向量的两种"方言"

假设我们有一个二维平面，除了标准基之外，还有另一组基 b ⃗ 1 = [ 2 1 ] \vec{b}_1 = \begin{bmatrix}2\\1\end{bmatrix} b 1=[21] 和 b ⃗ 2 = [ 1 2 ] \vec{b}_2 = \begin{bmatrix}1\\2\end{bmatrix} b 2=[12]。那么同一个向量 v ⃗ \vec{v} v 可以用两种方式描述：

在标准基下 ： v ⃗ = [ 3 4 ] \vec{v} = \begin{bmatrix}3\\4\end{bmatrix} v =[34]（即 3 i ^ + 4 j ^ 3\hat{i} + 4\hat{j} 3i^+4j^）
在 b ⃗ 1 , b ⃗ 2 \vec{b}_1, \vec{b}_2 b 1,b 2 基下 ：我们需要找到系数 c 1 , c 2 c_1, c_2 c1,c2 使得 v ⃗ = c 1 b ⃗ 1 + c 2 b ⃗ 2 \vec{v} = c_1\vec{b}_1 + c_2\vec{b}2 v =c1b 1+c2b 2。解得 c 1 = 2 3 , c 2 = 5 3 c_1 = \frac{2}{3}, c_2 = \frac{5}{3} c1=32,c2=35（具体计算见后），所以在新基下的坐标为 [ 2 3 5 3 ] B \begin{bmatrix}\frac{2}{3}\\\frac{5}{3}\end{bmatrix}{\mathcal{B}} [3235]B。

同一个几何箭头，在不同的基下拥有不同的坐标数字。基变换就是连接这两种描述的桥梁。

10.2 基变换矩阵：把新基下的坐标翻译回标准基

设有一组新基 B = { b ⃗ 1 , b ⃗ 2 } \mathcal{B} = \{\vec{b}_1, \vec{b}2\} B={b 1,b 2}，其中每个基向量都是在标准基下的坐标。那么对于任意在新基下坐标为 [ v ⃗ ] B = [ c 1 c 2 ] [\vec{v}]{\mathcal{B}} = \begin{bmatrix}c_1\\c_2\end{bmatrix} [v ]B=[c1c2] 的向量，它在标准基下的实际坐标可以通过线性组合得到：
v ⃗ = c 1 b ⃗ 1 + c 2 b ⃗ 2 \vec{v} = c_1\vec{b}_1 + c_2\vec{b}_2 v =c1b 1+c2b 2

将 b ⃗ 1 , b ⃗ 2 \vec{b}_1, \vec{b}_2 b 1,b 2 作为矩阵的列，就得到基变换矩阵 P P P：
P = [ b ⃗ 1 b ⃗ 2 ] = [ 2 1 1 2 ] P = \begin{bmatrix} \vec{b}_1 & \vec{b}_2 \end{bmatrix} = \begin{bmatrix} 2 & 1 \\ 1 & 2 \end{bmatrix} P=[b 1b 2]=[2112]

那么：

v ⃗ \] 标准 = P \[ v ⃗ \] B \[\\vec{v}\]_{\\text{标准}} = P \[\\vec{v}\]_{\\mathcal{B}} \[v \]标准=P\[v \]B 即矩阵 P P P 把新基下的坐标变换为标准基下的坐标。从几何上看， P P P 的作用就是：以标准基为参照，将新基向量作为列，那么乘以一个在新基下的坐标向量，就相当于用这些坐标去组合新基向量，得到标准基下的实际位置。 \*\*例子：\*\*如果在新基 B \\mathcal{B} B 下，向量坐标为 \[ 1 0 \] B \\begin{bmatrix}1\\\\0\\end{bmatrix}_{\\mathcal{B}} \[10\]B，那么它实际上就是 b ⃗ 1 \\vec{b}_1 b 1 本身，所以 P \[ 1 0 \] = \[ 2 1 \] P \\begin{bmatrix}1\\\\0\\end{bmatrix} = \\begin{bmatrix}2\\\\1\\end{bmatrix} P\[10\]=\[21\]，正确。 *** ** * ** *** #### 10.3 逆变换：把标准基下的坐标翻译为新基下的坐标 如果我们想反过来------已知一个向量在标准基下的坐标，想知道它在 B \\mathcal{B} B 基下的坐标------就需要用到 P P P 的逆矩阵 P − 1 P\^{-1} P−1： \[ v ⃗ \] B = P − 1 \[ v ⃗ \] 标准 \[\\vec{v}\]_{\\mathcal{B}} = P\^{-1} \[\\vec{v}\]_{\\text{标准}} \[v \]B=P−1\[v \]标准 因为 P − 1 P = I P\^{-1}P = I P−1P=I，它会把新基向量映射回标准基下的单位向量。 **例子** 前面例子中的 v ⃗ = \[ 3 4 \] 标准 \\vec{v} = \\begin{bmatrix}3\\\\4\\end{bmatrix}_{\\text{标准}} v =\[34\]标准，我们来求 P − 1 P\^{-1} P−1。对于 P = \[ 2 1 1 2 \] P = \\begin{bmatrix}2 \& 1 \\\\ 1 \& 2\\end{bmatrix} P=\[2112\]，行列式 det ⁡ ( P ) = 4 − 1 = 3 \\det(P) = 4-1=3 det(P)=4−1=3，所以 P − 1 = 1 3 \[ 2 − 1 − 1 2 \] P\^{-1} = \\frac{1}{3}\\begin{bmatrix}2 \& -1 \\\\ -1 \& 2\\end{bmatrix} P−1=31\[2−1−12

那么

v ⃗ \] B = P − 1 \[ 3 4 \] = 1 3 \[ 2 − 1 − 1 2 \] \[ 3 4 \] = 1 3 \[ 2 ⋅ 3 − 1 ⋅ 4 − 1 ⋅ 3 + 2 ⋅ 4 \] = 1 3 \[ 2 5 \] = \[ 2 3 5 3 \] \[\\vec{v}\]_{\\mathcal{B}} = P\^{-1}\\begin{bmatrix}3\\\\4\\end{bmatrix} = \\frac{1}{3}\\begin{bmatrix}2 \& -1 \\\\ -1 \& 2\\end{bmatrix}\\begin{bmatrix}3\\\\4\\end{bmatrix} = \\frac{1}{3}\\begin{bmatrix}2\\cdot3 -1\\cdot4 \\\\ -1\\cdot3 + 2\\cdot4\\end{bmatrix} = \\frac{1}{3}\\begin{bmatrix}2 \\\\ 5\\end{bmatrix} = \\begin{bmatrix}\\frac{2}{3}\\\\\\frac{5}{3}\\end{bmatrix} \[v \]B=P−1\[34\]=31\[2−1−12\]\[34\]=31\[2⋅3−1⋅4−1⋅3+2⋅4\]=31\[25\]=\[3235

这正是我们之前提到的系数。

10.4 基变换与线性变换：相似矩阵

现在考虑一个线性变换 T T T，它在标准基下用矩阵 A A A 表示。如果我们在新基 B \mathcal{B} B 下观察同一个变换，它会是什么样的矩阵 B B B？

设有一个向量在 B \mathcal{B} B 基下的坐标为 [ v ⃗ ] B [\vec{v}]_{\mathcal{B}} [v ]B，我们想先把它变成标准基下的坐标（用 P P P），然后应用变换 A A A，最后再把结果变回 B \mathcal{B} B 基下的坐标（用 P − 1 P^{-1} P−1）。整个过程就是：

v ⃗ \] B → P v ⃗ 标准 → A A v ⃗ 标准 → P − 1 \[ T ( v ⃗ ) \] B \[\\vec{v}\]_{\\mathcal{B}} \\xrightarrow{P} \\vec{v}_{\\text{标准}} \\xrightarrow{A} A\\vec{v}_{\\text{标准}} \\xrightarrow{P\^{-1}} \[T(\\vec{v})\]_{\\mathcal{B}} \[v \]BP v 标准A Av 标准P−1 \[T(v )\]B 因此，在新基下表示这个变换的矩阵为： B = P − 1 A P B = P\^{-1} A P B=P−1AP 这就是**相似变换** 。 A A A 和 B B B 称为相似矩阵，它们描述的是同一个线性变换，只是站在不同的坐标系（基底）下观察而已。 **几何理解** * P P P：把你从新基下的坐标"翻译"到标准基。 * A A A：在标准基下进行变换。 * P − 1 P\^{-1} P−1：把变换结果再"翻译"回新基下的坐标。 这种"翻译-变换-翻译回来"的过程，正是相似矩阵的几何含义。 *** ** * ** *** #### 10.5 为什么基变换很重要？ * **简化计算**：有些变换在特定基下会变得非常简单，比如对角矩阵。通过基变换，我们可以把一个复杂的矩阵对角化，从而简化幂运算、解微分方程组等。 * **理解本质**：同一个线性变换在不同坐标系下有不同的"外貌"，但它的本质（如特征值、秩、行列式）在相似变换下保持不变。基变换帮助我们看清这些不变量。 * **应用广泛**：在量子力学中，基变换对应于不同表象之间的转换；在计算机图形学中，它用于在不同坐标系（世界坐标系、模型坐标系、相机坐标系）之间转换。 *** ** * ** *** #### 10.6 总结 * **基变换矩阵 P P P**：列是新基向量在旧基下的坐标，作用是将新基下的坐标翻译为旧基下的坐标。 * **逆矩阵 P − 1 P\^{-1} P−1**：将旧基下的坐标翻译为新基下的坐标。 * **相似矩阵 B = P − 1 A P B = P\^{-1}AP B=P−1AP**：同一个线性变换在不同基下的矩阵表示。 * **几何意义**：基变换就是改变观察坐标系，向量本身不变，但描述它的数字变了。 下一次当你面对一个复杂的矩阵时，不妨问问自己：是否存在一组基，能让这个变换看起来简单些？基变换就是帮你找到那组基的工具。 **上一章** [机器学习线性代数--(9)叉积](https://blog.csdn.net/weixin_43496589/article/details/159277052?spm=1001.2014.3001.5502) **下一章** [机器学习线性代数--(11)特征向量与特征值：变换的"主轴"](https://blog.csdn.net/weixin_43496589/article/details/159379907?spm=1001.2014.3001.5502)