《机器学习数学基础》补充资料：从几何角度理解矩阵

《机器学习数学基础》第 2 章，专门讲解矩阵，因为它在线性代数中占据重要地位，也就是在机器学习中，占据重要定位了。为了更好地理解矩阵，本文从几何角度，更直观地对矩阵的某些性质和特征给予阐述。

注：以下讨论中仅限于实数矩阵范围。

1. 作为线性变换的矩阵

在线性代数中，线性方程组的形式是： b = A x \pmb{b} = \pmb{Ax} b=Ax ，其中 b ∈ R m \pmb{b}\in\mathbb{R}^m b∈Rm ， A ∈ R m × n \pmb{A}\in\mathbb{R}^{m\times n} A∈Rm×n ， x ∈ R n \pmb{x}\in\mathbb{R}^n x∈Rn 。此式表示 m m m 个线性方程组， n n n 个未知量， A \pmb{A} A 是系数矩阵， x \pmb{x} x 是线性方程组的解。此外，还可以认为矩阵 A \pmb{A} A 是实现 R n → R m \mathbb{R}^n\to\mathbb{R}^m Rn→Rm 的线性变换 f f f 。

如果研究矩阵如何实现线性变换，最简单的方式是观察它的列向量，矩阵的列向量表示标准基的 R n → R m \mathbb{R}^n\to\mathbb{R}^m Rn→Rm 的映射。例如， R 3 \mathbb{R}^3 R3 中的标准基是：

e 1 = [ 1 0 0 ] , e 2 = [ 0 1 0 ] , e 3 = [ 0 0 1 ] \pmb{e}_1=\begin{bmatrix}1\\0\\0\end{bmatrix},\pmb{e}_2=\begin{bmatrix}0\\1\\0\end{bmatrix},\pmb{e}_3=\begin{bmatrix}0\\0\\1\end{bmatrix} e1= 100 ,e2= 010 ,e3= 001

根据定义， R 3 \mathbb{R}^3 R3 中的任意一个向量都可以写成标准基的线性组合：

x = [ x 1 x 2 x 3 ] = x 1 [ 1 0 0 ] + x 2 [ 0 1 0 ] x 3 [ 0 0 1 ] \pmb{x}=\begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix}=x_1\begin{bmatrix}1\\0\\0\end{bmatrix}+x_2\begin{bmatrix}0\\1\\0\end{bmatrix}x_3\begin{bmatrix}0\\0\\1\end{bmatrix} x= x1x2x3 =x1 100 +x2 010 x3 001

现在让我们看看，用矩阵 A = [ 1 2 0 − 5 3 1 ] \pmb{A}=\begin{bmatrix}1&2&0\\-5&3&1\end{bmatrix} A=[1−52301] 乘以标准基中的一个向量，会发生什么，例如 A e 2 \pmb{Ae}_2 Ae2 ：

0 0 0 \] \[ 1 2 0 − 5 3 1 \] ⏞ A \[ 0 1 0 \] ⏞ e 2 = \[ 0 + 2 + 0 0 + 3 + 0 \] = \[ 2 3 \] \\overbrace{\\vphantom{\\begin{bmatrix}0\\\\0\\\\0\\end{bmatrix}}\\left\[\\begin{array}{c\|c\|c}1 \& \\color{#bc2612}{2} \& 0 \\\\ -5 \& \\color{#bc2612}{3} \&1\\end{array}\\right\]}\^{\\pmb{A}} \\overbrace{\\begin{bmatrix}0 \\\\ 1 \\\\ 0\\end{bmatrix}}\^{\\pmb{e}_2}=\\begin{bmatrix}0 + \\color{#bc2612}{2} + 0 \\\\ 0 + \\color{#bc2612}{3} + 0\\end{bmatrix}=\\begin{bmatrix}\\color{#bc2612}{2} \\\\ \\color{#bc2612}{3}\\end{bmatrix} 000 \[1−52301\] A 010 e2=\[0+2+00+3+0\]=\[23

也就是说，矩阵 A \pmb{A} A 的第二个列向量告诉我们，它将 R 3 \mathbb{R}^3 R3 的第二个基向量映射到 R 2 \mathbb{R}^2 R2 。如果将 R 3 \mathbb{R}^3 R3 的基向量组成 3 × 3 3\times3 3×3 的矩阵，通过矩阵乘法， R 3 \mathbb{R}^3 R3 的标向量映射到 R 2 \mathbb{R}^2 R2 。

1 2 0 − 5 3 1 \] \[ 1 0 0 0 1 0 0 0 1 \] = \[ 1 2 0 − 5 3 1 \] \\left\[\\begin{array}{c\|c\|c}1 \& 2 \& 0 \\\\ -5 \& 3 \& 1\\end{array}\\right\]\\left\[\\begin{array}{c\|c\|c}\\color{#11accd}{1} \& \\color{#bc2612}{0} \& \\color{#807504}{0} \\\\ \\color{#11accd}{0} \& \\color{#bc2612}{1} \& \\color{#807504}{0} \\\\\\color{#11accd}{0} \& \\color{#bc2612}{0} \& \\color{#807504}{1}\\end{array}\\right\]=\\left\[\\begin{array}{c\|c\|c}\\color{#11accd}{1} \& \\color{#bc2612}{2} \& \\color{#807504}{0}\\\\ \\color{#11accd}{-5} \& \\color{#bc2612}{3} \& \\color{#807504}{1}\\end{array}\\right\] \[1−52301\] 100010001 =\[1−52301

以上式子等号右侧的矩阵，每一列就是 R 3 \mathbb{R}^3 R3 的基映射到 R 2 \mathbb{R}^2 R2 后的基向量，也可以记作 f ( e 1 ) = [ 1 − 5 ] , f ( e 2 ) = [ 2 3 ] , f ( e 3 ) = [ 0 1 ] f(\pmb{e}_1)=\begin{bmatrix}1\\-5\end{bmatrix},f(\pmb{e}_2)=\begin{bmatrix}2\\3\end{bmatrix},f(\pmb{e}_3)=\begin{bmatrix}0\\1\end{bmatrix} f(e1)=[1−5],f(e2)=[23],f(e3)=[01] 。

假设 R 3 \mathbb{R}^3 R3 中的向量 x = [ 1.2 1.5 − 2 ] \pmb{x}=\begin{bmatrix}1.2\\1.5\\-2\end{bmatrix} x= 1.21.5−2 ，如果计算 A x \pmb{Ax} Ax ，即表示将向量 x \pmb{x} x 映射到 R 2 \mathbb{R}^2 R2 中，即：

利用三角函数的知识，可知： α = − tan ⁡ ( θ 2 ) , β = sin ⁡ ( θ ) , γ = − tan ⁡ ( θ 2 ) \alpha=-\tan(\frac{\theta}{2}), \beta=\sin(\theta), \gamma = -\tan(\frac{\theta}{2}) α=−tan(2θ),β=sin(θ),γ=−tan(2θ) 。下图中假设 θ = π 3 \theta=\frac{\pi}{3} θ=3π ，演示了上述三个矩阵分别对最左侧的原始向量所实现的旋转变换。

附：下面是对上述旋转变换的矩阵 R \mathbb{R} R 进行奇异值分解后所得矩阵的计算过程。

根据上述分解形式，首先计算 M 1 M 2 \pmb{M}_1\pmb{M}_2 M1M2 ：

1 α 0 1 \] \[ 1 0 β 1 \] ⏞ M 1 M 2 = \[ 1 + α β α β 1 \] \\overbrace{\\begin{bmatrix}1 \& \\alpha \\\\0 \& 1\\end{bmatrix}\\begin{bmatrix}1 \& 0 \\\\\\beta \& 1\\end{bmatrix}}\^{\\pmb{M}_1\\pmb{M}_2}=\\begin{bmatrix}1 + \\alpha \\beta \& \\alpha \\\\\\beta \& 1\\end{bmatrix} \[10α1\]\[1β01\] M1M2=\[1+αββα1

再计算 M 1 M 2 M 3 \pmb{M}_1\pmb{M}_2\pmb{M}_3 M1M2M3 ：

1 + α β α β 1 \] \[ 1 γ 0 1 \] ⏞ M 1 M 2 M 3 = \[ 1 + α β γ + α β γ + α β β γ + 1 \] \\overbrace{\\begin{bmatrix} 1 + \\alpha \\beta \& \\alpha \\\\ \\beta \& 1 \\end{bmatrix} \\begin{bmatrix} 1 \& \\gamma \\\\ 0 \& 1 \\end{bmatrix}}\^{\\pmb{M}_1 \\pmb{M}_2 \\pmb{M}_3}= \\begin{bmatrix} 1 + \\alpha \\beta \& \\gamma + \\alpha \\beta \\gamma + \\alpha \\\\ \\beta \& \\beta \\gamma + 1 \\end{bmatrix} \[1+αββα1\]\[10γ1\] M1M2M3=\[1+αββγ+αβγ+αβγ+1

根据前述定义的旋转矩阵，得：

cos ⁡ ( θ ) − sin ⁡ ( θ ) sin ⁡ ( θ ) cos ⁡ ( θ ) \] = \[ 1 + α β γ + α β γ + α β β γ + 1 \] \\begin{bmatrix} \\cos(\\theta) \& - \\sin(\\theta) \\\\ \\sin(\\theta) \& \\cos(\\theta) \\end{bmatrix}= \\begin{bmatrix} 1 + \\alpha \\beta \& \\gamma + \\alpha \\beta \\gamma + \\alpha \\\\ \\beta \& \\beta \\gamma + 1 \\end{bmatrix} \[cos(θ)sin(θ)−sin(θ)cos(θ)\]=\[1+αββγ+αβγ+αβγ+1

从而： β = sin ⁡ ( θ ) \beta=\sin(\theta) β=sin(θ)

cos ⁡ ( θ ) = 1 + α β = 1 + α sin ⁡ ( θ ) α = cos ⁡ ( θ ) − 1 sin ⁡ ( θ ) = − 1 − cos ⁡ ( θ ) sin ⁡ ( θ ) = − tan ⁡ ( θ 2 ) \begin{split} \cos(\theta) &= 1 + \alpha \beta \\ &= 1 + \alpha \sin(\theta) \\ \alpha &= \frac{\cos(\theta) - 1}{\sin(\theta)} \\ &= -\frac{1 - \cos(\theta)}{\sin(\theta)} \\ &= - \tan\Big(\frac{\theta}{2}\Big) \end{split} cos(θ)α=1+αβ=1+αsin(θ)=sin(θ)cos(θ)−1=−sin(θ)1−cos(θ)=−tan(2θ)

cos ⁡ ( θ ) = β γ + 1 = sin ⁡ ( θ ) γ + 1 cos ⁡ ( θ ) − 1 sin ⁡ ( θ ) = γ γ = − 1 − cos ⁡ ( θ ) sin ⁡ ( θ ) = − tan ⁡ ( θ 2 ) \begin{split} \cos(\theta) &= \beta \gamma + 1 \\ &= \sin(\theta) \gamma + 1 \\ \frac{\cos(\theta) - 1}{\sin(\theta)} &= \gamma \\ \gamma &= - \frac{1 - \cos(\theta)}{\sin(\theta)} \\ &= - \tan\Big(\frac{\theta}{2}\Big) \end{split} cos(θ)sin(θ)cos(θ)−1γ=βγ+1=sin(θ)γ+1=γ=−sin(θ)1−cos(θ)=−tan(2θ)

本文对线性变换从几何角度给予阐述，有利于更直观地理解线性变换的有关概念。在学习线性代数时，这是一种很重要的学习和思考方法。

参考文献

1\]. [A Geometrical Understanding of Matrices](http://gregorygundersen.com/blog/2018/10/24/matrices/?&continueFlag=219df8fa5d92e2a41b6fa4af489909e2) \[2\]. [维基百科：瑕旋转](https://zh.wikipedia.org/wiki/%E7%91%95%E6%97%8B%E8%BD%89) \[3\]. 齐伟. 机器学习数学基础. 电子工业出版社