目录

【论文阅读】Pay Attention to MLPs

作者:Google Research, Brain Team

泛读:只关注其中cv的论述

提出了一个简单的网络架构,gMLP,基于门控的MLPs,并表明它可以像Transformers一样在关键语言和视觉应用中发挥作用

提出了一个基于MLP的没有self-attention结构名为gMLP,仅仅存在静态参数化的通道映射(channel projections)和空间映射(spatial projections)

gMLP由 L 个如上图所示的模块堆叠而成

具有空间门控单元(SGU)的gMLP架构的概述。该模型由具有相同结构和大小的L个块的堆叠组成。所有的投影运算都是线性的," ⊙" 指的是逐元素乘法(线性门控)

CV上,使用gMLP做图片分类并在ImageNet上取得了与DeiT、ViT等Transformer模型相当的效果。与先前的MLP模型MLP-Mixer相比,gMLP做到了参数更少(参数减少66%)效果更强(效果提升3%)

总的来说,研究了Transformers关键语言和视觉应用中自我注意模块的必要性。具体来说,提出了一种基于mlp的Transformers替代方案,其中没有自我注意,它只是由通道投影和静态参数化的空间投影组成。我们对这种结构的几个设计选择进行了实验,发现当空间投影是线性的并与乘法门控配对时,效果很好。该模型命名为gMLP,因为它是由带有门控的基本MLP层构建而成的。

本文是转载文章,点击查看原文
如有侵权,请联系 xyy@jishuzhan.net 删除
相关推荐
美味的大香蕉3 小时前
Spark SQL
笔记
轻闲一号机4 小时前
【机器学习】机器学习笔记
人工智能·笔记·机器学习
天下琴川5 小时前
Dify智能体平台源码二次开发笔记(5) - 多租户的SAAS版实现(2)
人工智能·笔记
workworkwork勤劳又勇敢7 小时前
Adversarial Attack对抗攻击--李宏毅机器学习笔记
人工智能·笔记·深度学习·机器学习
寻丶幽风8 小时前
论文阅读笔记——Generating Long Sequences with Sparse Transformers
论文阅读·笔记·语言模型·transformer·稀疏自注意力
Angindem8 小时前
websoket 学习笔记
笔记·学习
jackson凌13 小时前
【Java学习笔记】Java第一课,梦开始的地方!!!
java·笔记
I like Code?13 小时前
AntVG2可视化学习与开发笔记-React19(持续更新)
javascript·笔记·学习
那天的烟花雨14 小时前
android display 笔记(十一)surfaceflinger 如何将图层传到lcd驱动的呢?
android·笔记
你说你说你来说14 小时前
安卓开发Intent详细介绍和使用
android·笔记