
传统神经元模型的局限
在过去的十年里,卷积神经网络(CNN)和 Transformer 统治了计算机视觉与自然语言处理领域。尽管它们在宏观架构上千差万别,但在微观的神经元(Neuron)层面上,它们共享着几乎相同的数学基因:"线性加权求和 + 固定激活函数"。
一个典型的神经元计算流程是:
- 线性聚合 :输入向量 xxx 与权重向量 www 进行点积(∑wixi\sum w_i x_i∑wixi),再加上偏置 bbb。这一步本质上是线性的。
- 非线性激活 :线性聚合的结果通过一个预先定义且不可学习 的非线性函数 σ(⋅)\sigma(\cdot)σ(⋅)(如 ReLU, GELU, Tanh)。
这种结构计算简单且易于实现,因此得到了广泛应用。但它有一个共同问题:神经元的行为是同质的,只能表示线性关系,非线性能力完全依赖统一的激活函数。这意味着:模型只能通过"增加层数"来提高非线性表达能力,单个神经元的灵活性不足,网络的表示能力在一定程度上受到线性结构的限制。
为了解决这些问题,研究逐渐指向两个方向:
- 重构神经元内部(Intra-neuron):赋予单个神经元更复杂的、可学习的非线性运算能力(代表作:ONN, Self-ONN)。
- 重构神经元连接(Inter-neuron):改变神经元之间的连接与激活方式,打破传统的"点积"范式(代表作:KAN, KAT)。
下面的内容将循序介绍这些模型的思路,并解释它们之间的联系。
基础回顾:CNN 与 Transformer
为了理解后续模型为何要"突破线性",先用简单的方式回顾传统结构。
CNN:同质化的局部线性变换
CNN 的核心是卷积层。对于第 lll 层的第 kkk 个神经元,其输出 xk(l)x_k^{(l)}xk(l) 计算为:xk(l)=σ(bkl+∑iwkil∗xi(l−1))x^{(l)}k = \sigma \left( b_k^l + \sum{i} w_{ki}^l * x^{(l-1)}_i \right)xk(l)=σ(bkl+∑iwkil∗xi(l−1))。
- 线性算子 :这里的 ∗*∗ 代表卷积操作,本质上是滑动窗口内的局部线性加权求和。
- 同质性:无论卷积核提取的是边缘还是纹理,其运算逻辑永远是"乘法累加"。
- 非线性来源 :仅来自于固定的 σ\sigmaσ(如 ReLU)。这意味着如果任务需要拟合一个复杂的频率波动(如 sin(x)\sin(x)sin(x)),CNN 必须用多个 ReLU 片段去折线逼近,效率较低。
Transformer 的 Attention:数据依赖的动态加权
虽然 Transformer 的前馈网络(MLP)是标准的线性变换,但其核心的 Attention(注意力机制) 引入了一种特殊的非线性:
- 动态权重 :与 CNN 的固定权重 www 不同,Attention 的权重是基于输入的全局内容动态计算的(Attention(Q,K,V)=softmax(QKTdk)VAttention(Q, K, V) = \text{softmax}(\frac{QK^T}{\sqrt{d_k}})VAttention(Q,K,V)=softmax(dk QKT)V)。
- 空间混合:Attention 解决了"看哪里"的问题,负责在空间或序列维度上混合信息(Spatial Mixing)。
- 局限:尽管 Attention 机制本身很强大,但 Transformer 中负责特征变换与非线性映射的 MLP 层(Channel Mixing) 依然沿用了传统的"线性变换 + GELU"模式。这也是后续 KAT 试图改进的核心区域。
ONN 与 Self-ONN:增强单个神经元的能力
如果神经元不仅能做乘法,还能做指数、正弦甚至更复杂的运算呢?这正是 ONN 系列的核心思想。
ONN 系列方法的核心思想在于神经元内部的运算方式不必局限于乘法和求和,可以更灵活。
Operational Neural Networks (ONN):广义运算神经元(Generalized Operational Perceptron, GOP)
ONN 受到生物神经元突触多样性的启发,提出了一种**异质(Heterogeneous)**的网络结构。它将神经元的计算过程解构为三个可定制的算子:
- 节点算子 (Nodal Operator, Ψ\PsiΨ) :替代了传统的权重乘法。它不仅可以是标量乘积 w⋅yw \cdot yw⋅y,还可以是指数函数 w⋅eyw \cdot e^yw⋅ey、正弦函数 sin(w⋅y)\sin(w \cdot y)sin(w⋅y) 等。这模拟了生物突触复杂的神经化学反应。
- 池化算子 (Pool Operator, PPP) :替代了传统的求和。它可以是 nnn-阶相关性聚合、中位数、最大值等非线性聚合方式。
- 激活算子 (Activation Operator, σ\sigmaσ):保留标准激活。
核心公式为 xk(l)=σ(Pkl[Ψk1l(wk1l,y1l−1),... ])x^{(l)}k = \sigma \left( P_k^l \left[ \Psi{k1}^l(w_{k1}^l, y_1^{l-1}), \dots \right] \right)xk(l)=σ(Pkl[Ψk1l(wk1l,y1l−1),...]),这打破了"线性束缚",使得单层网络就能拟合极其复杂的函数。但其缺点在于依赖贪婪迭代搜索 (GIS) 从预定义库中寻找算子,计算成本高昂,且难以在大规模数据上训练。
Self-Organized Operational Neural Network (Self-ONN):生成式神经元 (Generative Neurons)
为了解决 ONN 的算子搜索问题,Self-ONN 采用了一个更直接的思路:让网络自己生成非线性函数,而不是从函数库中选择。
- 泰勒级数逼近 :Self-ONN 利用泰勒级数原理,将节点算子 Ψ\PsiΨ 参数化为一个多项式:Ψ(y,w)=w1y+w2y2+⋯+wQyQ\Psi(y, \mathbf{w}) = w_1 y + w_2 y^2 + \dots + w_Q y^QΨ(y,w)=w1y+w2y2+⋯+wQyQ
- 权重的升维 :在传统网络中,一个连接只有一个权重 www;在 Self-ONN 中,一个连接拥有一组系数 w=[w1,...,wQ]\mathbf{w} = [w_1, \dots, w_Q]w=[w1,...,wQ]。
- 自组织特性 :在训练过程中,如果任务只需要线性关系,高阶系数 wq>1w_{q>1}wq>1 会自动趋零;如果需要复杂非线性,这些系数会自动调整以拟合最佳曲线。这使得网络具有了根据数据自我演化的能力。
这表示一个连接的权重从"标量"变为"一组多项式系数",并且神经元可以学习不同阶的非线性行为。整体不再需要算法搜索,参数梯度下降即可学习。相比 ONN,Self-ONN 的优化方式更自然,也更适合深度学习框架。
KAN:从节点非线性到边非线性
KAN(Kolmogorov-Arnold Networks)选择了一条完全不同的路径。它基于柯尔莫哥洛夫-阿诺德表示定理 ,对神经网络的拓扑结构进行了数学层面的重构。这个定理说明:多元函数可以通过若干一元函数和加法运算表示。
基于这一思想,KAN 的设计方式也变得大幅不同。其将激活函数放在"边"上。在传统神经网络中,权重在边上(计算乘法),激活在节点上,而KAN 则反过来,边上是非线性函数,节点只做求和。具体的计算公式为:xl+1,j=∑iϕl,j,i(xl,i)x_{l+1, j} = \sum_{i} \phi_{l, j, i}(x_{l, i})xl+1,j=∑iϕl,j,i(xl,i)。其中 ϕ\phiϕ 是可学习的一元函数。
为了让边上的函数 ϕ\phiϕ 既灵活又可导,KAN 使用了B-样条曲线 ϕ(x)=wb⋅silu(x)+ws⋅spline(x)\phi(x) = w_b \cdot \text{silu}(x) + w_s \cdot \text{spline}(x)ϕ(x)=wb⋅silu(x)+ws⋅spline(x)。B-样条适合逼近函数,其可解释性好、局部控制性强、精度高的优点,但是问题也很明显,例如递归计算结构难以 GPU 并行、训练速度慢、难以扩展到深度网络或大规模任务。KAN 在科学计算和公式拟合任务表现优秀,但在大型深度学习任务上受限不少。
KAT:为大规模模型设计的高效 KAN
KAT(Kolmogorov-Arnold Transformer)的目标是将 KAN 的非线性优势引入到 Transformer 这种大规模架构中,同时解决 KAN 的效率痛点。
具体而言,它采用了两项关键改进。
- 有理函数替代样条 :KAT 放弃了分段的 B-样条,改用有理函数(Rational Functions) :ϕ(x)=P(x)Q(x)=∑aixi1+∣∑bjxj∣\phi(x) = \frac{P(x)}{Q(x)} = \frac{\sum a_i x^i}{1 + |\sum b_j x^j|}ϕ(x)=Q(x)P(x)=1+∣∑bjxj∣∑aixi。相较 B-样条,其计算只包含加、减、乘、除,同时完全支持 GPU 并行,可以在深度网络中更易稳定训练。这种改动显著提高了速度,同时保留了足够的表达能力。
- 分组共享 (Group-KAN):KAT 将输入通道划分为多个组,每一组共享相同的非线性函数形状。这可以大幅减少参数、降低计算量,并且也更适合 Transformer 的高维输入。
经过优化,KAT 中的 GR-KAN 层可以写成我们熟悉的矩阵形式:GR-KAN(x)=W⋅Frational(x)\text{GR-KAN}(x) = W \cdot F_{\text{rational}}(x)GR-KAN(x)=W⋅Frational(x)。这里 FrationalF_{\text{rational}}Frational 是可学习的有理激活函数。这意味着 KAT 实际上变成了一个 "激活函数可学习且前置"的MLP。这种设计既保留了 KAN 的精髓,又完全兼容现有的深度学习硬件加速。
GR-KAN(x)=W⋅Frational(x) \text{GR-KAN}(x) = W \cdot F_{\text{rational}}(x) GR-KAN(x)=W⋅Frational(x)
KAT 和传统 MLP 的接口相同,其可以直接替换 Transformer 中的MLP,从而与Attention的组合结构兼具 KAN 的灵活性和 Transformer 的高效性。
Self-ONN 与 KAT 的共同思想
当我们审视 KAT 的最终形态时,会发现一个有趣的现象:KAT 在某种程度上是 Self-ONN 思想的现代复兴。
- 从"分段"回归"全局":KAT 放弃了 KAN 的局部 B-样条,转而使用全局的有理函数。这与 Self-ONN 使用全局泰勒多项式的思路如出一辙------都是通过学习一组系数来拟合最佳的非线性曲线。
- 生成式理念 :Self-ONN 通过多项式系数生成函数,KAT 通过有理分式系数生成函数。两者都摆脱了"从固定库中选择函数"的限制,实现了真正的激活函数参数化生成。
- 效率与表达的平衡:Self-ONN 证明了提升单神经元复杂度可以减少网络深度;KAT 则证明了通过引入有理函数(高计算密度),可以在 Transformer 中以更少的参数实现更高的精度。
如果说 KAN 提供了理论指引(激活在边上),那么 Self-ONN 则提供了工程智慧(用多项式拟合函数)。KAT 则是将这两者结合,利用现代 GPU 友好的有理函数,成功将"可学习非线性"这一理念推向了 Transformer 级的大规模应用,。
从线性同质到可学习非线性
整体来看,神经网络的发展正在从 所有神经元使用相同结构 逐步转向 允许神经元或连接具备可学习的非线性。这使得模型具有更高的表达能力,同时不必依赖过深的网络堆叠。