群理论(Group Theory)是抽象代数中最基础也是最重要的结构之一。群论在人工智能和机器学习中有非常具体且深刻的应用。群论让AI模型懂得数据中的对称性,从而用更少的参数、更少的数据学到更鲁棒的特征。下面从几个核心领域展开。
- 等变神经网络:利用对称性设计网络结构,例如,图神经网络(GNN)、球面CNN
- 图神经网络:置换群的等变性,用于分子性质预测、社交网络分析
- 量子机器学习:酉群、李群,用于量子态分类、量子核方法
- 表示学习:群表示论。解耦表示、可解释性
- 规范化流:矩阵群的变换。密度估计、图像生成
- 密码学 & AI安全:群的离散对数问题。联邦学习中的安全聚合
等变性:群论在神经网络设计中的核心
1. 什么是等变性?
一个神经网络可以看作一个函数 f:X→Yf: \mathcal{X} \to \mathcal{Y}f:X→Y。如果输入经过某种变换(比如旋转),输出的变化也遵循同样的规则,就称 fff 是等变的。
数学定义:对于群 GGG 在 X\mathcal{X}X 和 Y\mathcal{Y}Y 上的作用,如果对任意 g∈Gg \in Gg∈G 和 x∈Xx \in \mathcal{X}x∈X:
f(g⋅x)=g⋅f(x)f(g \cdot x) = g \cdot f(x)f(g⋅x)=g⋅f(x)
举个直观的例子:
把一张猫的图片旋转90°,网络应该把旋转后的猫识别为"猫"------这是不变性(等变性的一种特例)。如果你对分子图旋转,网络预测的分子性质应该保持不变。
2. 为什么这对AI重要?
减少数据需求: 如果网络天生知道"旋转不影响语义",就不需要对每种旋转都提供训练样本。
提高泛化: 等变网络在未见过的变换下表现更好。
参数高效: 等变性约束减少了自由参数的数量。
3. 具体案例:图神经网络(GNN)
图神经网络是群论应用最成功的例子之一。
图 = 节点 + 边
对称群: SnS_nSn(置换群),图的结构不依赖于节点的编号
要求: GNN 必须对节点的置换等变
张量积图神经网络(Tensor Product GNN)的原理:当图结构的对称性(群)已知时,可以用群表示论来参数化等变层:
- 每一层由几个"张量积块"组成
- 每个块对应群的一个不可约表示
- 块间的关系由"Clebsch-Gordan系数"决定
4. 另一个例子:球面CNN
在球面图像处理(比如全景图、地球物理数据)中,群的对称性是 SO(3)SO(3)SO(3)(三维旋转群)。
Cohen等人提出了球面CNN,利用了群论中的:傅里叶变换在 SO(3)SO(3)SO(3) 上的推广: 球谐函数是 SO(3)SO(3)SO(3) 的不可约表示的矩阵元素。卷积定理: 球面上的卷积可以用球谐变换高效计算。
应用场景:天文数据分析,全景图像分类,分子动力学模拟
群表示论在特征学习中的应用
群表示论研究的是群如何通过矩阵作用在向量空间上。在AI中,这意味着:
- 群的操作 = 数据变换(旋转、平移、置换)
- 向量空间 = 特征空间
- 表示 = 特征在变换下的行为
群论提供了数学框架:
- 群的不可约分解 = 特征的"解耦"
- 一个好的表示应该让群作用在特征空间上对角化
例如: 人脸图像
- 旋转群 SO(2)SO(2)SO(2) 作用 → 一个子空间对应姿态
- 平移群 → 另一个子空间对应位置
- 光照变化群 → 第三个子空间
实用成果:β-VAE 及其变体利用了这个思想。在控制、机器人学中,群表示论用于分解系统状态。
规范化流中的矩阵群
规范化流是一种生成模型,通过可逆变换将简单分布映射到复杂分布。
规范化流中的每一层应该是可逆的,且雅可比行列式容易计算。
群论提供了一族完美的候选:
GLnGL_nGLn(一般线性群):所有可逆矩阵
SLnSL_nSLn(特殊线性群):行列式为1的可逆矩阵
O(n)O(n)O(n)(正交群):保持内积的矩阵
U(n)U(n)U(n)(酉群):保持复内积的矩阵
具体例子:Neural ODE中的流
在连续规范化流中,演化由矩阵值函数定义:
dh(t)dt=A(t)h(t)\frac{dh(t)}{dt} = A(t)h(t)dtdh(t)=A(t)h(t)
其中 A(t)A(t)A(t) 属于某个矩阵群的李代数。
这样,整个变换自动属于该矩阵群,保证了可逆性,行列式计算简单,数值稳定性。
具体应用有密度估计(如FFJORD),图像生成,分子构象生成等。
量子机器学习中的群论
量子机器学习是当前最前沿的方向之一,其中群论扮演了核心角色。
酉群 U(n)U(n)U(n),量子系统的演化由酉矩阵描述。酉矩阵构成群 U(n)U(n)U(n)。
量子机器学习中的群应用:
- 变分量子电路 = 在 U(n)U(n)U(n) 中选取路径
- 量子核方法 = 利用 U(n)U(n)U(n) 上的特征函数
- 量子态分类 = 利用群表示论构造特征
群论在计算机视觉中的应用
等变卷积网络:传统CNN对平移等变,但对旋转不等变。群论提供了一种系统化的推广:Group Equivariant CNN(G-CNN)
- 将卷积操作推广到任意群 GGG
- 利用群表示论定义"群卷积"
- 网络对所有 GGG 中的变换等变
关键公式(群卷积):
(f∗ψ)(g)=∑h∈Gf(h)ψ(g−1h)(f * \psi)(g) = \sum_{h \in G} f(h) \psi(g^{-1}h)(f∗ψ)(g)=h∈G∑f(h)ψ(g−1h)
效果:
在旋转MNIST上提升5%
在等变图生成上成果显著