【论文阅读】Pay Attention to MLPs

挥剑决浮云 -2023-09-03 17:28

作者：Google Research, Brain Team

泛读：只关注其中cv的论述

提出了一个简单的网络架构，gMLP，基于门控的MLPs，并表明它可以像Transformers一样在关键语言和视觉应用中发挥作用

提出了一个基于MLP的没有self-attention结构名为gMLP，仅仅存在静态参数化的通道映射（channel projections）和空间映射（spatial projections）

gMLP由 L 个如上图所示的模块堆叠而成

具有空间门控单元（SGU）的gMLP架构的概述。该模型由具有相同结构和大小的L个块的堆叠组成。所有的投影运算都是线性的，" ⊙" 指的是逐元素乘法（线性门控）

CV上，使用gMLP做图片分类并在ImageNet上取得了与DeiT、ViT等Transformer模型相当的效果。与先前的MLP模型MLP-Mixer相比，gMLP做到了参数更少（参数减少66%）效果更强（效果提升3%）

总的来说，研究了Transformers关键语言和视觉应用中自我注意模块的必要性。具体来说，提出了一种基于mlp的Transformers替代方案，其中没有自我注意，它只是由通道投影和静态参数化的空间投影组成。我们对这种结构的几个设计选择进行了实验，发现当空间投影是线性的并与乘法门控配对时，效果很好。该模型命名为gMLP，因为它是由带有门控的基本MLP层构建而成的。