机器学习线性代数--(10)基变换:在不同坐标系之间切换

从几何视角理解同一个向量在不同基底下的不同"语言"

在前几讲中,我们一直默认使用标准基 i ^ = 1 0 , j ^ = 0 1 \hat{i} = \begin{bmatrix}1\\0\end{bmatrix}, \hat{j} = \begin{bmatrix}0\\1\end{bmatrix} i^=10,j^=01 来描述向量。但任何向量空间都有无穷多组基,同一个向量在不同基下有不同的坐标表示。基变换就是帮助我们在这多种"语言"之间进行翻译的工具。


10.1 一个向量的两种"方言"

假设我们有一个二维平面,除了标准基之外,还有另一组基 b ⃗ 1 = 2 1 \vec{b}_1 = \begin{bmatrix}2\\1\end{bmatrix} b 1=21 和 b ⃗ 2 = 1 2 \vec{b}_2 = \begin{bmatrix}1\\2\end{bmatrix} b 2=12。那么同一个向量 v ⃗ \vec{v} v 可以用两种方式描述:

  • 在标准基下 : v ⃗ = 3 4 \vec{v} = \begin{bmatrix}3\\4\end{bmatrix} v =34(即 3 i ^ + 4 j ^ 3\hat{i} + 4\hat{j} 3i^+4j^)
  • 在 b ⃗ 1 , b ⃗ 2 \vec{b}_1, \vec{b}_2 b 1,b 2 基下 :我们需要找到系数 c 1 , c 2 c_1, c_2 c1,c2 使得 v ⃗ = c 1 b ⃗ 1 + c 2 b ⃗ 2 \vec{v} = c_1\vec{b}_1 + c_2\vec{b}2 v =c1b 1+c2b 2。解得 c 1 = 2 3 , c 2 = 5 3 c_1 = \frac{2}{3}, c_2 = \frac{5}{3} c1=32,c2=35(具体计算见后),所以在新基下的坐标为 2 3 5 3 B \begin{bmatrix}\frac{2}{3}\\\frac{5}{3}\end{bmatrix}{\mathcal{B}} 3235B。

同一个几何箭头,在不同的基下拥有不同的坐标数字。基变换就是连接这两种描述的桥梁。


10.2 基变换矩阵:把新基下的坐标翻译回标准基

设有一组新基 B = { b ⃗ 1 , b ⃗ 2 } \mathcal{B} = \{\vec{b}_1, \vec{b}2\} B={b 1,b 2},其中每个基向量都是在标准基下的坐标。那么对于任意在新基下坐标为 v ⃗ B = c 1 c 2 \\vec{v}{\mathcal{B}} = \begin{bmatrix}c_1\\c_2\end{bmatrix} v B=c1c2 的向量,它在标准基下的实际坐标可以通过线性组合得到:
v ⃗ = c 1 b ⃗ 1 + c 2 b ⃗ 2 \vec{v} = c_1\vec{b}_1 + c_2\vec{b}_2 v =c1b 1+c2b 2

将 b ⃗ 1 , b ⃗ 2 \vec{b}_1, \vec{b}_2 b 1,b 2 作为矩阵的列,就得到基变换矩阵 P P P:
P = b ⃗ 1 b ⃗ 2 = 2 1 1 2 P = \begin{bmatrix} \vec{b}_1 & \vec{b}_2 \end{bmatrix} = \begin{bmatrix} 2 & 1 \\ 1 & 2 \end{bmatrix} P=b 1b 2=2112

那么:
v ⃗ 标准 = P v ⃗ B \\vec{v}{\text{标准}} = P \\vec{v}{\mathcal{B}} v 标准=Pv B

即矩阵 P P P 把新基下的坐标变换为标准基下的坐标。从几何上看, P P P 的作用就是:以标准基为参照,将新基向量作为列,那么乘以一个在新基下的坐标向量,就相当于用这些坐标去组合新基向量,得到标准基下的实际位置。

**例子:**如果在新基 B \mathcal{B} B 下,向量坐标为 1 0 B \begin{bmatrix}1\\0\end{bmatrix}_{\mathcal{B}} 10B,那么它实际上就是 b ⃗ 1 \vec{b}_1 b 1 本身,所以 P 1 0 = 2 1 P \begin{bmatrix}1\\0\end{bmatrix} = \begin{bmatrix}2\\1\end{bmatrix} P10=21,正确。


10.3 逆变换:把标准基下的坐标翻译为新基下的坐标

如果我们想反过来------已知一个向量在标准基下的坐标,想知道它在 B \mathcal{B} B 基下的坐标------就需要用到 P P P 的逆矩阵 P − 1 P^{-1} P−1:
v ⃗ B = P − 1 v ⃗ 标准 \\vec{v}{\mathcal{B}} = P^{-1} \\vec{v}{\text{标准}} v B=P−1v 标准

因为 P − 1 P = I P^{-1}P = I P−1P=I,它会把新基向量映射回标准基下的单位向量。

例子

前面例子中的 v ⃗ = 3 4 标准 \vec{v} = \begin{bmatrix}3\\4\end{bmatrix}_{\text{标准}} v =34标准,我们来求 P − 1 P^{-1} P−1。对于 P = 2 1 1 2 P = \begin{bmatrix}2 & 1 \\ 1 & 2\end{bmatrix} P=2112,行列式 det ⁡ ( P ) = 4 − 1 = 3 \det(P) = 4-1=3 det(P)=4−1=3,所以
P − 1 = 1 3 2 − 1 − 1 2 P^{-1} = \frac{1}{3}\begin{bmatrix}2 & -1 \\ -1 & 2\end{bmatrix} P−1=312−1−12

那么

v ⃗ \] B = P − 1 \[ 3 4 \] = 1 3 \[ 2 − 1 − 1 2 \] \[ 3 4 \] = 1 3 \[ 2 ⋅ 3 − 1 ⋅ 4 − 1 ⋅ 3 + 2 ⋅ 4 \] = 1 3 \[ 2 5 \] = \[ 2 3 5 3 \] \[\\vec{v}\]_{\\mathcal{B}} = P\^{-1}\\begin{bmatrix}3\\\\4\\end{bmatrix} = \\frac{1}{3}\\begin{bmatrix}2 \& -1 \\\\ -1 \& 2\\end{bmatrix}\\begin{bmatrix}3\\\\4\\end{bmatrix} = \\frac{1}{3}\\begin{bmatrix}2\\cdot3 -1\\cdot4 \\\\ -1\\cdot3 + 2\\cdot4\\end{bmatrix} = \\frac{1}{3}\\begin{bmatrix}2 \\\\ 5\\end{bmatrix} = \\begin{bmatrix}\\frac{2}{3}\\\\\\frac{5}{3}\\end{bmatrix} \[v \]B=P−1\[34\]=31\[2−1−12\]\[34\]=31\[2⋅3−1⋅4−1⋅3+2⋅4\]=31\[25\]=\[3235

这正是我们之前提到的系数。


10.4 基变换与线性变换:相似矩阵

现在考虑一个线性变换 T T T,它在标准基下用矩阵 A A A 表示。如果我们在新基 B \mathcal{B} B 下观察同一个变换,它会是什么样的矩阵 B B B?

设有一个向量在 B \mathcal{B} B 基下的坐标为 v ⃗ B \\vec{v}{\mathcal{B}} v B,我们想先把它变成标准基下的坐标(用 P P P),然后应用变换 A A A,最后再把结果变回 B \mathcal{B} B 基下的坐标(用 P − 1 P^{-1} P−1)。整个过程就是:
v ⃗ B → P v ⃗ 标准 → A A v ⃗ 标准 → P − 1 T ( v ⃗ ) B \\vec{v}
{\mathcal{B}} \xrightarrow{P} \vec{v}{\text{标准}} \xrightarrow{A} A\vec{v}{\text{标准}} \xrightarrow{P^{-1}} T(\\vec{v})_{\mathcal{B}} v BP v 标准A Av 标准P−1 T(v )B

因此,在新基下表示这个变换的矩阵为:
B = P − 1 A P B = P^{-1} A P B=P−1AP

这就是相似变换 。 A A A 和 B B B 称为相似矩阵,它们描述的是同一个线性变换,只是站在不同的坐标系(基底)下观察而已。

几何理解

  • P P P:把你从新基下的坐标"翻译"到标准基。
  • A A A:在标准基下进行变换。
  • P − 1 P^{-1} P−1:把变换结果再"翻译"回新基下的坐标。

这种"翻译-变换-翻译回来"的过程,正是相似矩阵的几何含义。


10.5 为什么基变换很重要?

  • 简化计算:有些变换在特定基下会变得非常简单,比如对角矩阵。通过基变换,我们可以把一个复杂的矩阵对角化,从而简化幂运算、解微分方程组等。
  • 理解本质:同一个线性变换在不同坐标系下有不同的"外貌",但它的本质(如特征值、秩、行列式)在相似变换下保持不变。基变换帮助我们看清这些不变量。
  • 应用广泛:在量子力学中,基变换对应于不同表象之间的转换;在计算机图形学中,它用于在不同坐标系(世界坐标系、模型坐标系、相机坐标系)之间转换。

10.6 总结

  • 基变换矩阵 P P P:列是新基向量在旧基下的坐标,作用是将新基下的坐标翻译为旧基下的坐标。
  • 逆矩阵 P − 1 P^{-1} P−1:将旧基下的坐标翻译为新基下的坐标。
  • 相似矩阵 B = P − 1 A P B = P^{-1}AP B=P−1AP:同一个线性变换在不同基下的矩阵表示。
  • 几何意义:基变换就是改变观察坐标系,向量本身不变,但描述它的数字变了。

下一次当你面对一个复杂的矩阵时,不妨问问自己:是否存在一组基,能让这个变换看起来简单些?基变换就是帮你找到那组基的工具。

上一章 机器学习线性代数--(9)叉积

下一章 机器学习线性代数--(11)特征向量与特征值:变换的"主轴"

相关推荐
安逸sgr2 小时前
《图解机器学习-第四章》:损失函数和梯度下降:模型是怎么被训练出来的?
人工智能·机器学习·图解机器学习
极光代码工作室3 小时前
基于深度学习的手写数字识别系统
人工智能·python·深度学习·神经网络·机器学习
大模型最新论文速读4 小时前
06-11 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
码云骑士5 小时前
12-GIL不是性能杀手(下)-绕过GIL的三种方案与决策树
算法·决策树·机器学习
Hello数据集5 小时前
医疗AI实战:如何利用免疫与内分泌系统疾病数据集训练高精度预测模型?
人工智能·机器学习·数据挖掘·医疗ai
明月照山海-7 小时前
机器学习周报四十九
人工智能·机器学习
安逸sgr7 小时前
《图解机器学习-第三章》:训练、验证、测试:三分数据,缺一不可!
人工智能·深度学习·机器学习·计算机视觉
湘美书院--湘美谈教育7 小时前
湘美谈教育湘美书院考古教育系列:湖湘一万年序列整理研究
大数据·人工智能·深度学习·神经网络·机器学习
阳明山水7 小时前
自下而上 vs 自上而下 vs 最优组合预测策略解析
大数据·人工智能·深度学习·算法·机器学习
keykey6.7 小时前
从逻辑回归到 SVM:不仅仅是“分开“
算法·机器学习·支持向量机