MAE 论文精读 | 在CV领域自监督的Bert思想

1. 背景

之前我们了解了VIT和transformer

MAE 是基于VIT的,不过像BERT探索了自监督学习在NLP领域的transformer架构的应用,MAE探索了自监督学习在CV的transformer的应用

论文标题中的Auto就是说标号来自于图片本身,暗示了这种无监督的学习

2.方法

像是Bert一样,通过mask形成带掩码的语言模型,挖掉东西,然后让模型来估计

随机盖住一些块patch,然后预测出盖住的patch,预测这个patch里的所有像素

遮住更大的块的话可以让模型学习一些更好的表征

要注意这些模型的基本都很大

2.1 基本流程

(1)首先输入图像随机打成一个一个的块patch,随机遮住其中一些

(2)然后将未遮住的块送入Encoder编码器进行编码 形成特征,这里注意我们的编码器只需要处理未遮住的块,所以计算量要比全部处理更小

(3)和原来遮住的块叠加拼接 再送入decoder解码器恢复被遮住的块

实际使用中,只需要用编码器即可(不需要做掩码)编码器提取特征用于计算机视觉的下游任务

由于编码很重要,所以主要的计算量还是来自编码器

2.2 与VIT比较

(1)盖住更多的块,使得块与块之间的冗余没有那么高

(2)用一个transformer架构的解码器,直接还原原始像素信息,使得整个流程更加简单

(3)加上一些技术,如正则项技术,也可以在小一点的数据集上训练出来,使得训练更加鲁棒

3.实验

映射的维度

微调可以调整个全部的网络,也可以调最后一层,或者调网络中的部分层,微调哪些层

尝试不同遮住率

相关推荐
xuanyu2229 分钟前
Linux常用指令
linux·运维·人工智能
静心问道30 分钟前
WGAN算法
深度学习·算法·机器学习
凡人的AI工具箱1 小时前
AI教你学Python 第11天 : 局部变量与全局变量
开发语言·人工智能·后端·python
晓星航1 小时前
Docker本地部署Chatbot Ollama搭建AI聊天机器人并实现远程交互
人工智能·docker·机器人
Kenneth風车1 小时前
【机器学习(五)】分类和回归任务-AdaBoost算法-Sentosa_DSML社区版
人工智能·算法·低代码·机器学习·数据分析
AI小白龙*1 小时前
大模型团队招人(校招):阿里巴巴智能信息,2025届春招来了!
人工智能·langchain·大模型·llm·transformer
空指针异常Null_Point_Ex2 小时前
大模型LLM之SpringAI:Web+AI(一)
人工智能·chatgpt·nlp
清纯世纪2 小时前
基于深度学习的图像分类或识别系统(含全套项目+PyQt5界面)
开发语言·python·深度学习
Alluxio2 小时前
选择Alluxio来解决AI模型训练场景数据访问的五大理由
大数据·人工智能·分布式·ai·语言模型
AIPaPerPass写论文2 小时前
写论文去哪个网站?2024最佳五款AI毕业论文学术网站
人工智能·深度学习·chatgpt·powerpoint·ai写作