MLP-Mixer: AN all MLP Architecture for Vision

  • 发表于NeurIPS 2021, 由Google Research, Brain Team发表。

Mixer Architecture

Introduction

  • 当前的深度视觉结构包含融合特征(mix features)的层:(i)在一个给定的空间位置融合。(ii)在不同的空间位置,或者一次融合所有。
  • 在CNN中,(ii) 是由N x N(N > 1 )卷积和池化完成的。更深的神经元有更深的感受野。同时 1 x 1的卷积完成了(i)。
  • 在 Vision Transformer和其他基于attention-based architectures,自监督层同时做到了(i)和(ii), 而MLP-blocks 做到了(i)。
  • 因此Mixer architecture的内在思想是去清晰区分per-location(channel-mixing) 操作(i) 以及cross-location(token-mixing)operations(ii)。这些操作都由MLPs完成。

Steps

  1. Mixer的输入是S个无重叠的图像块,每一块投影成维度C的隐层,也就是一个二维真值输入表, X ∈ R S × C X \in \mathbb{R}^{S \times C} X∈RS×C。 S维度就代表空间,C代表同一空间位置的不同特征。
  2. Mixer 包括同一尺寸的多层,每层包含两个MLP块。第一个是token-mixing MLP:作用于X的列(通过将X转置 X T X^T XT)。第二个是channel-mixing MLP:作用于行。
  3. 每一个模块包含两个全连接层和一个非线性层。

相关推荐
要努力啊啊啊2 小时前
强化学习基础概念图文版笔记
论文阅读·人工智能·笔记·深度学习·语言模型·自然语言处理
二进制的Liao3 小时前
【数据分析】什么是鲁棒性?
运维·论文阅读·算法·数学建模·性能优化·线性回归·负载均衡
Jamence12 小时前
多模态大语言模型arxiv论文略读(108)
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
张较瘦_16 小时前
[论文阅读] 人工智能 | 用大语言模型解决软件元数据“身份谜题”:科研软件的“认脸”新方案
论文阅读·人工智能·语言模型
Jamence17 小时前
多模态大语言模型arxiv论文略读(106)
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
崔高杰18 小时前
To be or Not to be, That‘s a Token——论文阅读笔记——Beyond the 80/20 Rule和R2R
论文阅读·笔记
张较瘦_18 小时前
[论文阅读] 人工智能+软件工程 | 用大模型优化软件性能
论文阅读·人工智能·软件工程
张较瘦_21 小时前
[论文阅读] 软件工程 | 量子计算如何赋能软件工程(Quantum-Based Software Engineering)
论文阅读·软件工程·量子计算
Jamence1 天前
多模态大语言模型arxiv论文略读(109)
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
蒸土豆的技术细节1 天前
ICLR文章如何寻找页码
论文阅读