《机器学习数学基础》补充资料:过渡矩阵和坐标变换推导

尽管《机器学习数学基础》这本书,耗费了比较长的时间和精力,怎奈学识有限,错误难免。因此,除了在专门的网页( 勘误和修订 )中发布勘误和修订内容之外,对于重大错误,我还会以专题的形式发布,并做出更多的相关解释。

更欢迎有识之士、广大读者朋友,指出其中的错误。非常感谢大家的帮助。

在《机器学习数学基础》第29页到第30页,推导过渡矩阵和坐标变换的时候,原文有一些错误。下面将推导过程重新编写如下,并且增加一些更详细的说明。此说明没有写入原文,是为了协助理解这段推导而作。

针对性的修改,请参阅:勘误与修订


设 { α 1 , ⋯   , α n } \{\pmb{\alpha}_1, \cdots, \pmb{\alpha}_n\} {α1,⋯,αn}( α i \pmb{\alpha}_i αi 表示列向量) 是某个向量空间的一个基,则该空间中一个向量 O A → \overrightarrow{OA} OA 可以描述为:

O A → = x 1 α 1 + ⋯ + x n α n (1.3.4) \overrightarrow{OA} = x_1\pmb{\alpha}_1 + \cdots + x_n\pmb{\alpha}_n\tag{1.3.4} OA =x1α1+⋯+xnαn(1.3.4)

其中的 ( x 1 , ⋯   , x n ) (x_1, \cdots, x_n) (x1,⋯,xn) 即为向量 O A → \overrightarrow{OA} OA 在基 { α 1 , ⋯   , α n } \{\pmb{\alpha}_1, \cdots, \pmb{\alpha}_n\} {α1,⋯,αn} 的坐标

如果有另外一个基 { β 1 , ⋯   , β n } \{\pmb{\beta}_1, \cdots, \pmb{\beta}_n\} {β1,⋯,βn}( β i \pmb{\beta}_i βi 表示列向量),向量 O A → \overrightarrow{OA} OA 又描述为:

O A → = x 1 ′ β 1 + ⋯ + x n ′ β n (1.3.5) \overrightarrow{OA} = x_1'\pmb{\beta}_1 + \cdots + x_n'\pmb{\beta}_n\tag{1.3.5} OA =x1′β1+⋯+xn′βn(1.3.5)

那么,同一个向量空间的这两个基有没有关系呢?有。不要忘记,基是一个向量组,例如基 { β 1 , ⋯   , β n } \{\pmb{\beta}_1, \cdots, \pmb{\beta}_n\} {β1,⋯,βn} 中的每个向量也在此向量空间,所以可以用基 { α 1 , ⋯   , α n } \{\pmb{\alpha}_1, \cdots, \pmb{\alpha}_n\} {α1,⋯,αn} 线性表出,即:

{ β 1 = b 11 α 1 + ⋯ + b n 1 α n ⋮ β n = b 1 n α 1 + ⋯ + b n n α n \begin{cases}\begin{split}\pmb{\beta}1 &= b{11}\pmb{\alpha}1 + \cdots + b{n1}\pmb{\alpha}_n \\ \vdots \\\pmb{\beta}n &= b{1n}\pmb{\alpha}1 + \cdots + b{nn}\pmb{\alpha}_n \end{split}\end{cases} ⎩ ⎨ ⎧β1⋮βn=b11α1+⋯+bn1αn=b1nα1+⋯+bnnαn

以矩阵(这里提前使用了矩阵的概念,是因为本书已经在前言中声明,不假定读者完全没有学过高等数学。关于矩阵的更详细内容,请参阅第2章)的方式,可以表示为:

β 1 ⋯ β n = α 1 ⋯ α n b 11 ⋯ b 1 n ⋮ b n 1 ⋯ b n n (1.3.6) \begin{equation} \begin{split} \begin{bmatrix}\pmb{\beta}1&\cdots&\pmb{\beta}n\end{bmatrix} = \begin{bmatrix}\pmb{\alpha}1&\cdots&\pmb{\alpha}n\end{bmatrix}\begin{bmatrix}b{11} & \cdots & b{1n}\\\vdots\\b{n1} & \cdots &b{nn}\end{bmatrix} \end{split} \end{equation}\tag{1.3.6} β1⋯βn=α1⋯αn b11⋮bn1⋯⋯b1nbnn (1.3.6)

其中:

P = b 11 ⋯ b 1 n ⋮ b n 1 ⋯ b n n \pmb P = \begin{bmatrix}b_{11} & \cdots & b_{1n}\\\vdots\\b_{n1} & \cdots &b_{nn}\end{bmatrix} P= b11⋮bn1⋯⋯b1nbnn

称为基 { α 1 , ⋯   , α n } \{\pmb{\alpha}_1, \cdots, \pmb{\alpha}_n\} {α1,⋯,αn} 向基 { β 1 , ⋯   , β n } \{\pmb{\beta}_1, \cdots, \pmb{\beta}_n\} {β1,⋯,βn} 的过渡矩阵。显然,过渡矩阵实现了一个基向另一个基的变换。

定义 在同一个向量空间,由基 { α 1 ⋯ α n } \{\pmb{\alpha}_1\quad\cdots\quad\pmb{\alpha}_n\} {α1⋯αn} 向基 { β 1 ⋯ β n } \{\pmb{\beta}_1\quad\cdots\quad\pmb{\beta}_n\} {β1⋯βn} 的过渡矩阵是 P \pmb{P} P ,则:
β 1 ⋯ β n = α 1 ⋯ α n P \\pmb{\\beta}_1\\quad\\cdots\\quad\\pmb{\\beta}_n = \\pmb{\\alpha}_1\\quad\\cdots\\quad\\pmb{\\alpha}_n\pmb P β1⋯βn=α1⋯αnP

根据(1.3.5)式,可得:

x 1 ′ β 1 + ⋯ + x n ′ β n = x 1 ′ b 11 α 1 + ⋯ + x 1 ′ b n 1 α n + ⋯ + x n ′ b 1 n α 1 + ⋯ + x n ′ b n n α n = ( x 1 ′ b 11 + ⋯ + x n ′ b 1 n ) α 1 + ⋯ + ( x 1 ′ b n 1 + ⋯ + x n ′ b n n ) α n \begin{split}x_1'\pmb{\beta}1 + \cdots + x_n'\pmb{\beta}n &= x_1'b{11}\pmb{\alpha}1 + \cdots + x_1'b{n1}\pmb{\alpha}n \\ & \quad + \cdots \\ & \quad + x_n'b{1n}\pmb{\alpha}1 + \cdots + x_n'b{nn}\pmb{\alpha}n \\ &=(x_1'b{11}+ \cdots + x_n'b{1n})\pmb{\alpha}1 \\ & \quad + \cdots \\ &\quad+(x_1'b{n1} + \cdots + x_n'b_{nn})\pmb{\alpha}_n\end{split} x1′β1+⋯+xn′βn=x1′b11α1+⋯+x1′bn1αn+⋯+xn′b1nα1+⋯+xn′bnnαn=(x1′b11+⋯+xn′b1n)α1+⋯+(x1′bn1+⋯+xn′bnn)αn

(1.3.4)式 和(1.3.5)式描述的是同一个向量,所以:

{ x 1 = x 1 ′ b 11 + ⋯ + x n ′ b 1 n ⋮ x n = x 1 ′ b n 1 + ⋯ + x n ′ b n n \begin{cases}\begin{split}x_1 &= x_1'b_{11} + \cdots + x_n'b_{1n}\\&\vdots\\x_n &= x_1'b_{n1} + \cdots + x_n'b_{nn}\end{split}\end{cases} ⎩ ⎨ ⎧x1xn=x1′b11+⋯+xn′b1n⋮=x1′bn1+⋯+xn′bnn

如果写成矩阵形式,即:

x 1 ⋮ x n = b 11 ⋯ b 1 n ⋮ b n 1 ⋯ b n n x 1 ′ ⋮ x n ′ (1.3.7) \begin{bmatrix}x_1\\\vdots\\x_n\end{bmatrix} = \begin{bmatrix}b_{11} & \cdots & b_{1n}\\\vdots\\b_{n1} & \cdots &b_{nn}\end{bmatrix}\begin{bmatrix}x_1'\\\vdots\\x_n'\end{bmatrix}\tag{1.3.7} x1⋮xn = b11⋮bn1⋯⋯b1nbnn x1′⋮xn′ (1.3.7)

表示了在同一个向量空间中,向量在不同基下的坐标之间的变换关系,我们称为坐标变换公式

定义 在某个向量空间中,由基 { α 1 ⋯ α n } \{\pmb{\alpha}_1\quad\cdots\quad\pmb{\alpha}_n\} {α1⋯αn} 向基 { β 1 ⋯ β n } \{\pmb{\beta}_1\quad\cdots\quad\pmb{\beta}_n\} {β1⋯βn} 的过渡矩阵是 P \pmb{P} P 。某向量在基 { α 1 ⋯ α n } \{\pmb{\alpha}_1\quad\cdots\quad\pmb{\alpha}_n\} {α1⋯αn} 的坐标是 x = x 1 ⋮ x n \pmb{x}=\begin{bmatrix}x_1\\\vdots\\x_n\end{bmatrix} x= x1⋮xn ,在基 { β 1 ⋯ β n } \{\pmb{\beta}_1\quad\cdots\quad\pmb{\beta}_n\} {β1⋯βn} 的坐标是 x ′ = x 1 ′ ⋮ x n ′ \pmb x'=\begin{bmatrix}x_1'\\\vdots \\x_n'\end{bmatrix} x′= x1′⋮xn′ ,这两组坐标之间的关系是:
x = P x ′ \pmb x = \pmb P \pmb x' x=Px′


《机器学习数学基础》第29页到第30页的错误,是我讲授《机器学习数学基础》的课程时发现的。现在深刻体会到:教,然后知不足。教学相长,认真地研究教学,也是自我提升。

相关推荐
用户252736278144 小时前
【踩坑复盘】我在本地跑 RAG 知识库时踩了 5 个大坑,吐血整理避坑指南
人工智能
大模型真好玩4 小时前
LangChain DeepAgents 速通指南(九)—— 生产级智能体框架 DeepAgents Code 源码导读
人工智能·langchain·agent
用户018349301696 小时前
用Zustand管理AI多会话状态
人工智能
武子康9 小时前
调查研究-198 Agent 到底该记住什么?读懂《What Must Generalist Agents Remember?》
人工智能·openai·agent
aqi009 小时前
15天学会AI应用开发(九)利用Chroma持久化向量数据
人工智能·python·大模型·ai编程·ai应用
武子康11 小时前
调查研究-197 FAISS vs Elasticsearch 全面对比:从向量检索、全文搜索到 RAG 选型指南
人工智能·elasticsearch·agent
青禾网络11 小时前
Web 前端如何接入 AI 音效生成:从零到可用的完整方案
人工智能·设计模式
用户2527362781411 小时前
【技术实战】用 Spring Boot + Vue3 + LM Studio 在本地跑通 RAG 知识库
人工智能
用户51914958484511 小时前
VBScript随机数生成器内部机制:从时间种子到密码令牌破解
人工智能·aigc