机器学习线性代数--(8)点积与对偶性

从投影到线性变换的深刻联系

在前面的讲解中，我们探索了线性变换如何改变空间。现在，我们来看一个看似简单却极其深刻的运算------点积（也叫内积）。它不仅是坐标的对应相乘再相加，更有着优美的几何解释。而3Blue1Brown视频中最精彩的部分，是揭示了点积与对偶性之间的内在联系：每一个点积运算都可以看作是一个从多维空间到一维空间的线性变换。

8.1 点积的计算与几何解释

计算定义

对于两个二维向量 v ⃗ = $x 1 y 1$ \vec{v} = \begin{bmatrix}x_1\\y_1\end{bmatrix} v = $x1y1$ 和 w ⃗ = $x 2 y 2$ \vec{w} = \begin{bmatrix}x_2\\y_2\end{bmatrix} w = $x2y2$ ，它们的点积定义为：
v ⃗ ⋅ w ⃗ = x 1 x 2 + y 1 y 2 \vec{v} \cdot \vec{w} = x_1x_2 + y_1y_2 v ⋅w =x1x2+y1y2

即对应坐标相乘再相加。对于三维向量，则是 x 1 x 2 + y 1 y 2 + z 1 z 2 x_1x_2 + y_1y_2 + z_1z_2 x1x2+y1y2+z1z2。
几何解释

点积还有一个等价的几何定义：
v ⃗ ⋅ w ⃗ = ∥ v ⃗ ∥ ∥ w ⃗ ∥ cos ⁡ θ \vec{v} \cdot \vec{w} = \|\vec{v}\| \,\|\vec{w}\| \cos\theta v ⋅w =∥v ∥∥w ∥cosθ

其中 θ \theta θ 是两个向量之间的夹角。

这个公式告诉我们：
- 点积的绝对值等于 v ⃗ \vec{v} v 的长度乘以 w ⃗ \vec{w} w 在 v ⃗ \vec{v} v 方向上的投影长度（或反之）。
- 如果两个向量垂直，点积为零（ cos ⁡ 90 ∘ = 0 \cos90^\circ = 0 cos90∘=0）。
- 如果方向相同，点积为正；方向相反，点积为负。
直观理解

点积衡量一个向量在另一个向量方向上的"贡献"程度。它是对齐程度的度量。

8.2 点积的对称性

从几何定义容易看出，点积是对称的： v ⃗ ⋅ w ⃗ = w ⃗ ⋅ v ⃗ \vec{v} \cdot \vec{w} = \vec{w} \cdot \vec{v} v ⋅w =w ⋅v 。这意味着投影是相互的： v ⃗ \vec{v} v 在 w ⃗ \vec{w} w 上的投影长度乘以 ∥ w ⃗ ∥ \|\vec{w}\| ∥w ∥，等于 w ⃗ \vec{w} w 在 v ⃗ \vec{v} v 上的投影长度乘以 ∥ v ⃗ ∥ \|\vec{v}\| ∥v ∥。这并非显而易见，但从代数定义可以直接推出。

8.3 从线性变换的视角看点积：对偶性

现在，让我们把点积与线性变换联系起来。考虑一个将二维向量映射到一维数轴的线性变换 L : R 2 → R L: \mathbb{R}^2 \to \mathbb{R} L:R2→R。根据我们之前学过的，这样一个变换完全由它在基向量上的作用决定。设 L ( i ^ ) = a L(\hat{i}) = a L(i^)=a， L ( j ^ ) = b L(\hat{j}) = b L(j^)=b，那么对于任意向量 v ⃗ = $x y$ \vec{v} = \begin{bmatrix}x\\y\end{bmatrix} v = $xy$ ，由线性性质：
L ( v ⃗ ) = x L ( i ^ ) + y L ( j ^ ) = a x + b y L(\vec{v}) = xL(\hat{i}) + yL(\hat{j}) = ax + by L(v )=xL(i^)+yL(j^)=ax+by

看，这正是向量 v ⃗ \vec{v} v 与某个向量 u ⃗ = $a b$ \vec{u} = \begin{bmatrix}a\\b\end{bmatrix} u = $ab$ 的点积形式！也就是说，每一个从高维到一维的线性变换，都对应着一个唯一的向量 u ⃗ \vec{u} u ，使得变换作用就是与 u ⃗ \vec{u} u 取点积。

对偶向量

这个 u ⃗ \vec{u} u 被称为该线性变换的对偶向量 。反过来，给定任何向量 u ⃗ \vec{u} u ，映射 v ⃗ ↦ u ⃗ ⋅ v ⃗ \vec{v} \mapsto \vec{u} \cdot \vec{v} v ↦u ⋅v 一定是一个线性变换（可以验证它满足可加性和齐次性）。因此，点积与一维线性变换之间有着一一对应的关系。

对偶性的几何意义

如何理解这种对应？想象一个从二维到一维的线性变换，它会把整个平面压缩到一条数轴上。这个变换由某个向量 u ⃗ \vec{u} u 决定，而 u ⃗ \vec{u} u 的方向和长度编码了压缩的方式。实际上， u ⃗ \vec{u} u 的方向就是数轴的方向，而它的长度反映了拉伸的倍数。当我们用点积 u ⃗ ⋅ v ⃗ \vec{u} \cdot \vec{v} u ⋅v 计算时，结果正是 v ⃗ \vec{v} v 在 u ⃗ \vec{u} u 方向上的投影长度乘以 ∥ u ⃗ ∥ \|\vec{u}\| ∥u ∥。所以，这个线性变换的几何操作就是：首先将向量投影到 u ⃗ \vec{u} u 所在的直线上，然后将投影长度缩放 ∥ u ⃗ ∥ \|\vec{u}\| ∥u ∥ 倍。

8.4 对偶性的核心思想

对偶性的深刻之处在于，它揭示了一个概念的两个方面：

静态视角：点积是向量之间的运算，衡量它们的对齐程度。
动态视角：每个向量都"代表"一个线性变换，该变换将空间压缩到一维。

换句话说，当我们写下 u ⃗ ⋅ v ⃗ \vec{u} \cdot \vec{v} u ⋅v 时，我们可以选择将 u ⃗ \vec{u} u 看作一个静态的箭头，也可以看作一个正在挤压空间的变换机器。两种视角完全等价，且由对偶性统一起来。

为什么这很重要？

对偶性在数学中无处不在。在更高级的线性代数中，我们会遇到"对偶空间"的概念------所有线性变换构成的向量空间，它与原空间同构。点积就是连接这两个空间的桥梁。

8.5 总结

点积：代数上是坐标相乘再相加；几何上是投影长度乘以另一个向量的长度。
点积与线性变换：任何一个从高维到一维的线性变换都可以表示为与某个固定向量的点积。
对偶性：向量和它对应的线性变换是同一枚硬币的两面。

下次当你计算点积时，不妨想象其中一个向量正在施展魔法，将整个空间压缩到一条直线上，而结果就是你的向量在那条线上留下的痕迹。这种视角会让线性代数变得更加通透。

上一章 机器学习线性代数--(7)逆矩阵、列空间、秩、零空间与非方阵

下一章 机器学习线性代数--(9)叉积