【论文阅读】Pay Attention to MLPs

作者:Google Research, Brain Team

泛读:只关注其中cv的论述

提出了一个简单的网络架构,gMLP,基于门控的MLPs,并表明它可以像Transformers一样在关键语言和视觉应用中发挥作用

提出了一个基于MLP的没有self-attention结构名为gMLP,仅仅存在静态参数化的通道映射(channel projections)和空间映射(spatial projections)

gMLP由 L 个如上图所示的模块堆叠而成

具有空间门控单元(SGU)的gMLP架构的概述。该模型由具有相同结构和大小的L个块的堆叠组成。所有的投影运算都是线性的," ⊙" 指的是逐元素乘法(线性门控)

CV上,使用gMLP做图片分类并在ImageNet上取得了与DeiT、ViT等Transformer模型相当的效果。与先前的MLP模型MLP-Mixer相比,gMLP做到了参数更少(参数减少66%)效果更强(效果提升3%)

总的来说,研究了Transformers关键语言和视觉应用中自我注意模块的必要性。具体来说,提出了一种基于mlp的Transformers替代方案,其中没有自我注意,它只是由通道投影和静态参数化的空间投影组成。我们对这种结构的几个设计选择进行了实验,发现当空间投影是线性的并与乘法门控配对时,效果很好。该模型命名为gMLP,因为它是由带有门控的基本MLP层构建而成的。

相关推荐
YJlio1 小时前
进程和诊断工具学习笔记(8.29):ListDLLs——一眼看清进程里加载了哪些 DLL,谁在偷偷注入
android·笔记·学习
lkbhua莱克瓦242 小时前
集合进阶8——Stream流
java·开发语言·笔记·github·stream流·学习方法·集合
爱学java的ptt2 小时前
jvm笔记
jvm·笔记
雾岛听蓝2 小时前
C++ 类和对象(一):从概念到实践,吃透类的核心基础
开发语言·c++·经验分享·笔记
一个平凡而乐于分享的小比特3 小时前
UCOSIII笔记(十四)时间戳
笔记·时间戳·ucosiii
YJlio3 小时前
ShareEnum 学习笔记(9.5):内网共享体检——开放共享、匿名访问与权限风险
大数据·笔记·学习
泽虞4 小时前
《STM32单片机开发》p7
笔记·stm32·单片机·嵌入式硬件
FakeOccupational4 小时前
电路笔记(信号):网线能传多少米?网线信号传输距离
开发语言·笔记·php
Yawesh_best14 小时前
告别系统壁垒!WSL+cpolar 让跨平台开发效率翻倍
运维·服务器·数据库·笔记·web安全
Ccjf酷儿16 小时前
操作系统 蒋炎岩 3.硬件视角的操作系统
笔记