MLP-Mixer: AN all MLP Architecture for Vision

BlueagleAI2024-02-20 13:14

发表于NeurIPS 2021, 由Google Research, Brain Team发表。

Mixer Architecture

Introduction

当前的深度视觉结构包含融合特征(mix features)的层:(i)在一个给定的空间位置融合。(ii)在不同的空间位置，或者一次融合所有。
在CNN中，(ii) 是由N x N(N > 1 )卷积和池化完成的。更深的神经元有更深的感受野。同时 1 x 1的卷积完成了(i)。
在 Vision Transformer和其他基于attention-based architectures，自监督层同时做到了(i)和(ii), 而MLP-blocks 做到了(i)。
因此Mixer architecture的内在思想是去清晰区分per-location(channel-mixing) 操作(i) 以及cross-location(token-mixing)operations(ii)。这些操作都由MLPs完成。

Steps

Mixer的输入是S个无重叠的图像块,每一块投影成维度C的隐层，也就是一个二维真值输入表， X ∈ R S × C X \in \mathbb{R}^{S \times C} X∈RS×C。 S维度就代表空间，C代表同一空间位置的不同特征。
Mixer 包括同一尺寸的多层，每层包含两个MLP块。第一个是token-mixing MLP：作用于X的列（通过将X转置 X T X^T XT）。第二个是channel-mixing MLP：作用于行。
每一个模块包含两个全连接层和一个非线性层。

上一篇：自存放忘 angular 动态加载子节点

下一篇：Git入门

热门推荐

01UV安装并设置国内源 02KGG转MP3工具|非KGM文件|解密音频 03【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）04Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 05蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 062025最新国内服务器可用docker源仓库地址大全（2025年8月更新）07TRAE 规则（Rules）配置指南：个人习惯、团队规范与最佳实践 08NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 09全球最强模型Grok4，国内已可免费使用！（附教程）10TRAE Rules 实践：为项目配置 6A 工作流