【论文阅读】Pay Attention to MLPs

作者:Google Research, Brain Team

泛读:只关注其中cv的论述

提出了一个简单的网络架构,gMLP,基于门控的MLPs,并表明它可以像Transformers一样在关键语言和视觉应用中发挥作用

提出了一个基于MLP的没有self-attention结构名为gMLP,仅仅存在静态参数化的通道映射(channel projections)和空间映射(spatial projections)

gMLP由 L 个如上图所示的模块堆叠而成

具有空间门控单元(SGU)的gMLP架构的概述。该模型由具有相同结构和大小的L个块的堆叠组成。所有的投影运算都是线性的," ⊙" 指的是逐元素乘法(线性门控)

CV上,使用gMLP做图片分类并在ImageNet上取得了与DeiT、ViT等Transformer模型相当的效果。与先前的MLP模型MLP-Mixer相比,gMLP做到了参数更少(参数减少66%)效果更强(效果提升3%)

总的来说,研究了Transformers关键语言和视觉应用中自我注意模块的必要性。具体来说,提出了一种基于mlp的Transformers替代方案,其中没有自我注意,它只是由通道投影和静态参数化的空间投影组成。我们对这种结构的几个设计选择进行了实验,发现当空间投影是线性的并与乘法门控配对时,效果很好。该模型命名为gMLP,因为它是由带有门控的基本MLP层构建而成的。

相关推荐
im_AMBER3 小时前
Leetcode 38
笔记·学习·算法·leetcode
koo3643 小时前
李宏毅机器学习笔记32
人工智能·笔记·机器学习
老王熬夜敲代码7 小时前
C++继承回顾
c++·笔记
番茄寿司8 小时前
具身智能六大前沿创新思路深度解析
论文阅读·人工智能·深度学习·计算机网络·机器学习
摇滚侠9 小时前
Spring Boot3零基础教程,整合 SSM,笔记52
java·spring boot·笔记
lbai713410 小时前
Perf-Ninja听课笔记 - 环境配置及Warmup
笔记·性能优化
递归不收敛10 小时前
四、高效注意力机制与模型架构
人工智能·笔记·自然语言处理·架构
陈苏同学11 小时前
笔记1.4:机器人学的语言——三维空间位姿描述 (旋转矩阵 - 齐次变换矩阵 - 欧拉角 - 四元数高效表示旋转)
笔记·线性代数·算法·机器人
岑梓铭11 小时前
考研408《计算机组成原理》复习笔记,第五章(5)——CPU的【指令流水线(含中断)】
笔记·考研·408·计算机组成原理·计组
递归不收敛11 小时前
多模态学习大纲笔记(未完成)
人工智能·笔记·学习·自然语言处理