【AAAI 2026】即插即用 Spikingformer 重构残差连接,打造高效脉冲 Transformer

脉冲神经网络 (SNNs) 因其事件驱动和低功耗特性而备受关注。然而,现有的视觉脉冲Transformer(如Spikformer)在残差连接 结构中存在非脉冲计算(整数-浮点乘法),限制了其在类脑芯片上的部署效率。本文提出 Spikingformer ,通过将膜电位残差 (MS Residual) 连接与自注意力机制结合,消除了非脉冲计算,实现了完全的尖峰驱动 (Spike-driven) 建模。该模型在ImageNet及NLP等13个数据集上刷新了SNN的性能纪录,成为SNN领域的通用基础骨干网络。

01 论文基本信息

  • 标题: Spikingformer: A Key Foundation Model for Spiking Neural Networks
  • 核心模块 : 脉冲分词器 (Spiking Tokenizer)预激活脉冲自注意力 (PSSA)脉冲多层感知机 (SMLP)膜电位残差 (MS Residual)

02 算法框架与核心模块

2.1 算法框架

Spikingformer 采用类 ViT 架构,由脉冲分词器、多层脉冲Transformer块及分类头组成。输入图像经分词器降采样并编码为脉冲序列,进入特征提取层,最后通过全局平均池化完成分类任务。

2.2 核心模块

模块一:膜电位残差 (MS Residual)
  • 核心功能: 解决传统 SEW 残差结构产生的非脉冲计算问题,确保全网符合尖峰驱动原则。
  • 实现逻辑 : 相比于 SEW 残差(图 1a),MS 残差(图 1b)在脉冲神经元(SN)之后进行加法运算,其数学表达为:
    Ol=ConvBNl(SNl(Ol−1))+Ol−1O_l = \text{ConvBN}l(\text{SN}l(O{l-1})) + O{l-1}Ol=ConvBNl(SNl(Ol−1))+Ol−1
    Ol+1=ConvBNl+1(SNl+1(Ol))+OlO_{l+1} = \text{ConvBN}{l+1}(\text{SN}{l+1}(O_l)) + O_lOl+1=ConvBNl+1(SNl+1(Ol))+Ol
  • 优势 : 输出 OlO_lOl 在进入下一层卷积前必先经过脉冲神经元(SN),确保了卷积层的输入始终为二值化脉冲(0或1),从而将计算简化为纯加法(AC),大幅降低能耗。
模块二:预激活脉冲自注意力 (PSSA)
  • 核心功能: 在保持全局建模能力的同时,实现完全的尖峰驱动矩阵乘法。
  • 实现逻辑 : 修改了脉冲神经元的位置以适应 MS 残差,并使用卷积层替代线性层以增强泛化。其注意力机制表达为:
    Attention(Q,K,V)=ConvBN(SN(QKTV×s))\text{Attention}(Q, K, V) = \text{ConvBN}(\text{SN}(QK^T V \times s))Attention(Q,K,V)=ConvBN(SN(QKTV×s))
    其中 Q,K,VQ, K, VQ,K,V 均为纯脉冲数据,计算过程仅涉及索引加法。
  • 优势 : 相比传统自注意力,消除了 Softmax 算子,显著降低了计算复杂度和能耗。

03 模块适用任务

  • 核心应用场景 : 适用于静态图像分类 (如 ImageNet)、神经形态视觉数据处理 (如 DVS-Gesture)以及自然语言理解(如 GLUE 任务)。
  • 方法论核心: 通过重新设计残差学习路径,使 Transformer 结构与脉冲神经元的动力学特性(LIF模型)在底层数学逻辑上完美对齐。
  • 启发性拓展 :
    1. 可作为高效的基础模型部署于边缘类脑硬件,实现低功耗实时推断。
    2. 其纯脉冲驱动的架构为构建超大规模能源效率型通用人工智能(General AI)提供了技术路径。

04 实验结果与可视化分析

核心实验与结论


实验:ImageNet-1k 分类性能与能耗分析

  • 实验目的: 验证 Spikingformer 在大规模数据集上的分类精度及其相对于传统 SNN 的能耗优势。
  • 关键结果 :
    • 精度 : Spikingformer-8-768 在 ImageNet 上达到 75.85% 的 Top-1 准确率,而其改进版 Spikingformer†^\dagger† 更是达到了 77.64%
    • 能耗 : 相比于 Spikformer,Spikingformer-8-512 的理论能耗从 18.82 mJ 降至 7.46 mJ ,降幅达 60.36%
  • 作者结论: Spikingformer 成功解决了 Transformer 结构在 SNN 化过程中的能耗陷阱,实现了性能与效率的双重领先,证明了 MS 残差在深层 SNN 中的优越性。

总结与观点

1. 总结 (Summary)

本文针对现有脉冲 Transformer 中由于 SEW 残差连接导致的非脉冲计算瓶颈,提出了一种名为 Spikingformer 的新型全脉冲架构。通过引入 MS 残差连接,Spikingformer 确保了网络各层之间传递的是纯粹的二值脉冲信号,从而在硬件实现上仅需低功耗的加法器(AC)。该模型在计算机视觉和自然语言处理的多个基准测试中均展现了卓越的性能。

2. 观点 (Perspectives)
  • 架构范式转移: Spikingformer 纠正了早期脉冲 Transformer 中"不彻底"的尖峰驱动设计,明确了 MS 残差才是 SNN 深度化和硬件友好化的正确路径。
  • 能耗效率的降维打击: 通过将乘加运算(MAC)彻底转变为加法运算(AC),SNN 在保持与 ANN 相当精度的同时,在能效比上具有量级优势。
  • 跨模态泛化潜力 : 该模型在 NLP 任务上的成功尝试,打破了 SNN 仅限于视觉领域的固有印象,预示着脉冲驱动的语言大模型的可能性。
  • 降采样的关键作用 : 变体 Spikingformer†^\dagger† 引入的 CML 降采样 模块进一步证明了在脉冲空间进行精确梯度回传对提升 Transformer-SNN 性能的重要性。
相关推荐
de之梦-御风3 小时前
【深度学习】模型从训练完成到产线运行的完整使用方式
人工智能·深度学习
_codemonster4 小时前
深度学习实战(基于pytroch)系列完整目录
人工智能·深度学习
Chris_12194 小时前
Halcon学习笔记-Day6进阶:工业级视觉系统核心技术详解
人工智能·python·深度学习·halcon
cute_ming5 小时前
关于基于nodeMap重构DOM的最佳实践
java·javascript·重构
victory04317 小时前
llama2 MLP 门控FFN
深度学习·transformer
数据分享者8 小时前
猫狗图像分类数据集-21616张标准化128x128像素JPEG图像-适用于计算机视觉教学研究与深度学习模型训练-研究人员、开发者和学生提供实验平台
深度学习·计算机视觉·分类
小途软件8 小时前
ssm607家政公司服务平台的设计与实现+vue
java·人工智能·pytorch·python·深度学习·语言模型
汤姆yu9 小时前
基于深度学习的暴力行为识别系统
人工智能·深度学习
进击切图仔9 小时前
Realsense 相机测试及说明
网络·人工智能·深度学习·数码相机
头发够用的程序员9 小时前
Ultralytics 代码库深度解读【六】:数据加载机制深度解析
人工智能·pytorch·python·深度学习·yolo·边缘计算·模型部署