【论文阅读】Pay Attention to MLPs

作者:Google Research, Brain Team

泛读:只关注其中cv的论述

提出了一个简单的网络架构,gMLP,基于门控的MLPs,并表明它可以像Transformers一样在关键语言和视觉应用中发挥作用

提出了一个基于MLP的没有self-attention结构名为gMLP,仅仅存在静态参数化的通道映射(channel projections)和空间映射(spatial projections)

gMLP由 L 个如上图所示的模块堆叠而成

具有空间门控单元(SGU)的gMLP架构的概述。该模型由具有相同结构和大小的L个块的堆叠组成。所有的投影运算都是线性的," ⊙" 指的是逐元素乘法(线性门控)

CV上,使用gMLP做图片分类并在ImageNet上取得了与DeiT、ViT等Transformer模型相当的效果。与先前的MLP模型MLP-Mixer相比,gMLP做到了参数更少(参数减少66%)效果更强(效果提升3%)

总的来说,研究了Transformers关键语言和视觉应用中自我注意模块的必要性。具体来说,提出了一种基于mlp的Transformers替代方案,其中没有自我注意,它只是由通道投影和静态参数化的空间投影组成。我们对这种结构的几个设计选择进行了实验,发现当空间投影是线性的并与乘法门控配对时,效果很好。该模型命名为gMLP,因为它是由带有门控的基本MLP层构建而成的。

相关推荐
落痕的寒假4 小时前
[论文总结] 深度学习在农业领域应用论文笔记14
论文阅读·人工智能·深度学习
Lovely Ruby6 小时前
DeepSeek-R1本地部署笔记
笔记
影林握雪8 小时前
M|哪吒之魔童闹海
经验分享·笔记·其他·生活
梦云澜8 小时前
论文阅读(十):用可分解图模型模拟连锁不平衡
论文阅读·人工智能·深度学习
Lorcian10 小时前
web前端12--表单和表格
前端·css·笔记·html5·visual studio code
想拿高薪的韭菜14 小时前
人工智能第2章-知识点与学习笔记
人工智能·笔记·学习
一只码代码的章鱼15 小时前
计算机网络 应用层 笔记 (电子邮件系统,SMTP,POP3,MIME,IMAP,万维网,HTTP,html)
笔记·计算机网络·microsoft
学游戏开发的16 小时前
UE求职Demo开发日志#19 给物品找图标,实现装备增加属性,背包栏UI显示装备
c++·笔记·游戏引擎·unreal engine
云缘若仙16 小时前
directx12 3d+vs2022游戏开发第三章 笔记五 变换
笔记·3d
前端达人18 小时前
「AI学习笔记」深度学习进化史:从神经网络到“黑箱技术”(三)
人工智能·笔记·深度学习·神经网络·学习