在深度学习的浩瀚地图中,CNN、GNN 和 Transformer 看起来像是独立演化的物种,各有各的算子和应用领地。但如果我们将视野拉高,从几何深度学习(Geometric Deep Learning, GDL)的维度俯瞰,你会发现它们其实都是同一套建筑哲学的不同表达:针对数据的"几何对称性"设计"等变算子"。
当我们剥离具体的公式,神经网络的进化史本质上就是一场关于"归纳偏置(Inductive Bias)"的精确投放。
一、 核心概念:对称性(Symmetry)与群(Group)
在数学和物理中,对称性意味着"在某种变换下保持不变"。
-
圆具有旋转对称性(你怎么转,它看起来都一样)。
-
猫的图片具有平移对称性(无论猫在左上角还是右下角,它依然是只猫)。
描述这些变换动作的数学工具叫**"群"**。网络设计的首要任务,就是确定目标数据存在于哪个"域"中,以及该域具备什么样的"群"属性。
二、 等变性(Equivariance):算子的灵魂
这是所有高性能架构共同遵守的铁律。
等变性意味着:如果你对输入做了某种变换,输出的特征也应该随之产生相应的演变,而不是变得面目全非。
-
CNN 的平移等变性:
卷积算子的本质是"滑动窗口"。当你把输入图像向右移动 10 个像素,生成的特征图也会精准地向右移动 10 个像素。这种性质保证了模型对物体位置的感知是连续且稳定的。
-
GNN 的置换等变性:
图数据没有固定的排列顺序。如果你交换了图中两个节点的编号,网络输出的节点特征也仅仅是交换了对应的位置,而内部的逻辑关联完好无损。
-
Transformer 的集合等变性:
在不加位置编码时,Transformer 视输入为一堆无序的"词"。如果你打乱词序,输出的向量序列也会随之打乱,但它们之间的自注意力权重(Attention Map)拓扑结构保持同构。
三、 从等变到不变:分类的终点
虽然中间层需要等变性来保留位置、方向或关系信息,但最终的预测结果(如分类标签)必须是**不变(Invariant)**的。
通过全局平均池化(Global Pooling)或对称聚合,网络将"动荡"的中间特征压缩成一个"不动"的结论。无论物体如何平移、旋转或重排,模型给出的判断始终如一。
四、 架构大一统蓝图
几何深度学习将所有主流架构统一到了一个简洁的公式中:
架构 = 线性得分 + 非线性激活 + 对称性约束
| 架构名称 | 处理的数据域 | 核心对称性 | 对应的等变算子 |
|---|---|---|---|
| CNN | 欧几里得网格 | 平移对称性 | 卷积 (Convolution) |
| GNN | 拓扑图结构 | 置换对称性 | 邻域聚合 (Message Passing) |
| Transformer | 节点全连接图 | 置换对称性 | 自注意力 (Self-Attention) |
| Deep Sets | 独立元素集合 | 置换对称性 | 点对点处理 + 全局对称化 |
五、 这种统一视角的启示
为什么我们要费力去寻找这种统一性?
-
样本效率的飞跃:
传统的"暴力学习"依赖数据增强(如手动旋转图片)让模型去死记硬背规律。而"对称性范式"是将规律直接刻进算子的 DNA。模型还没看数据,就已经天生懂得了物理定律,这极大降低了对海量数据的依赖。
-
从"炼金"转向"建模":
当我们面对一个新问题(如某种具有旋转对称性的科学数据)时,我们不再是盲目堆叠层数,而是去寻找该问题的几何先验。只要找准了对称群,剩下的只是如何用数学算子去实现对应的等变性。
结语
神经网络不是冷冰冰的矩阵乘法堆砌,而是物理规律在数字空间的优雅投影。从 CNN 捕获空间位移,到 GNN 捕获结构关系,再到 Transformer 捕获全局关联,人类正一步步将真实世界的对称美学 转化为机器的认知本能。
当我们能够用一套统一的语言描述所有结构时,深度学习才真正从经验科学迈向了理性科学。