深度学习经典模型之Network in Network

1 Network in Network

1.1 模型介绍

​ Network In Network (NIN)是由 M i n L i n Min Lin MinLin等人提出,在CIFAR-10和CIFAR-100分类任务中达到当时的最好水平,因其网络结构是由三个多层感知机堆叠而被成为NIN [ 5 ] ^{[5]} [5]。NIN以一种全新的角度审视了卷积神经网络中的卷积核设计,通过引入子网络结构代替纯卷积中的线性映射部分,这种形式的网络结构激发了更复杂的卷积神经网络的结构设计,其中下一节中介绍的GoogLeNet的Inception结构就是来源于这个思想。

1.2 模型结构

​ 图 1 NIN网络结构图

​ NIN由三层的多层感知卷积层(MLPConv Layer)构成,每一层多层感知卷积层内部由若干层的局部全连接层和非线性激活函数组成,代替了传统卷积层中采用的线性卷积核。在网络推理(inference)时,这个多层感知器会对输入特征图的局部特征进行划窗计算,并且每个划窗的局部特征图对应的乘积的权重是共享的,这两点是和传统卷积操作完全一致的,最大的不同在于多层感知器对局部特征进行了非线性的映射,而传统卷积的方式是线性的。NIN的网络参数配置表4.4所示(原论文并未给出网络参数,表中参数为编者结合网络结构图和CIFAR-100数据集以 3 × 3 3\times3 3×3卷积为例给出)。

​ 表2 NIN网络参数配置(结合原论文NIN结构和CIFAR-100数据给出)

网络层 输入尺寸 核尺寸 输出尺寸 参数个数
局部全连接层 L 11 L_{11} L11 ∗ ^* ∗ 32 × 32 × 3 32\times32\times3 32×32×3 ( 3 × 3 ) × 16 / 1 (3\times3)\times16/1 (3×3)×16/1 30 × 30 × 16 30\times30\times16 30×30×16 ( 3 × 3 × 3 + 1 ) × 16 (3\times3\times3+1)\times16 (3×3×3+1)×16
全连接层 L 12 L_{12} L12 ∗ ^* ∗ 30 × 30 × 16 30\times30\times16 30×30×16 16 × 16 16\times16 16×16 30 × 30 × 16 30\times30\times16 30×30×16 ( ( 16 + 1 ) × 16 ) ((16+1)\times16) ((16+1)×16)
局部全连接层 L 21 L_{21} L21 30 × 30 × 16 30\times30\times16 30×30×16 ( 3 × 3 ) × 64 / 1 (3\times3)\times64/1 (3×3)×64/1 28 × 28 × 64 28\times28\times64 28×28×64 ( 3 × 3 × 16 + 1 ) × 64 (3\times3\times16+1)\times64 (3×3×16+1)×64
全连接层 L 22 L_{22} L22 28 × 28 × 64 28\times28\times64 28×28×64 64 × 64 64\times64 64×64 28 × 28 × 64 28\times28\times64 28×28×64 ( ( 64 + 1 ) × 64 ) ((64+1)\times64) ((64+1)×64)
局部全连接层 L 31 L_{31} L31 28 × 28 × 64 28\times28\times64 28×28×64 ( 3 × 3 ) × 100 / 1 (3\times3)\times100/1 (3×3)×100/1 26 × 26 × 100 26\times26\times100 26×26×100 ( 3 × 3 × 64 + 1 ) × 100 (3\times3\times64+1)\times100 (3×3×64+1)×100
全连接层 L 32 L_{32} L32 26 × 26 × 100 26\times26\times100 26×26×100 100 × 100 100\times100 100×100 26 × 26 × 100 26\times26\times100 26×26×100 ( ( 100 + 1 ) × 100 ) ((100+1)\times100) ((100+1)×100)
全局平均采样 G A P GAP GAP ∗ ^* ∗ 26 × 26 × 100 26\times26\times100 26×26×100 26 × 26 × 100 / 1 26\times26\times100/1 26×26×100/1 1 × 1 × 100 1\times1\times100 1×1×100 0 0 0

局部全连接层 L 11 L_{11} L11实际上是对原始输入图像进行划窗式的全连接操作,因此划窗得到的输出特征尺寸为 30 × 30 30\times30 30×30( 32 − 3 k + 1 1 s t r i d e = 30 \frac{32-3_k+1}{1_{stride}}=30 1stride32−3k+1=30)

全连接层 L 12 L_{12} L12是紧跟 L 11 L_{11} L11后的全连接操作,输入的特征是划窗后经过激活的局部响应特征,因此仅需连接 L 11 L_{11} L11和 L 12 L_{12} L12的节点即可,而每个局部全连接层和紧接的全连接层构成代替卷积操作的多层感知卷积层(MLPConv)。

全局平均采样层或全局平均池化层 G A P GAP GAP(Global Average Pooling)将 L 32 L_{32} L32输出的每一个特征图进行全局的平均池化操作,直接得到最后的类别数,可以有效地减少参数量。

1.3 模型特点

  • 使用多层感知机结构来代替卷积的滤波操作,不但有效减少卷积核数过多而导致的参数量暴涨问题,还能通过引入非线性的映射来提高模型对特征的抽象能力。
  • 使用全局平均池化来代替最后一个全连接层,能够有效地减少参数量(没有可训练参数),同时池化用到了整个特征图的信息,对空间信息的转换更加鲁棒,最后得到的输出结果可直接作为对应类别的置信度。
相关推荐
狂师4 分钟前
啥是AI Agent!2025年值得推荐入坑AI Agent的五大工具框架!(新手科普篇)
人工智能·后端·程序员
星辰大海的精灵6 分钟前
使用Docker和Kubernetes部署机器学习模型
人工智能·后端·架构
victory04318 分钟前
SpiceMix enables integrative single-cell spatial modeling of cell identity 文章解读
人工智能·深度学习
新智元12 分钟前
半数清华,8 位华人 AI 天团集体投奔 Meta!奥特曼:砸钱抢人不如培养死忠
人工智能·openai
新智元15 分钟前
全球顶尖 CS 论文惊爆 AI「好评密令」!哥大等 14 所高校卷入,学术圈炸锅
人工智能·openai
l0sgAi20 分钟前
vLLM在RTX50系显卡上部署大模型-使用wsl2
linux·人工智能
DDliu20 分钟前
花半个月死磕提示词后,我发现:真正值钱的不是模板,是这套可复用的结构化思维
人工智能
腾讯云开发者20 分钟前
AI 浪潮下的锚与帆:工程师文化的变与不变 | 架构师夜生活
人工智能
JoernLee21 分钟前
机器学习算法:支持向量机SVM
人工智能·算法·机器学习
杰尼橙子26 分钟前
深度解读Karpathy说的Software 3.0时代,感觉是个人的机会很大的时代呀
人工智能·openai