MAE 论文精读 | 在CV领域自监督的Bert思想

1. 背景

之前我们了解了VIT和transformer

MAE 是基于VIT的,不过像BERT探索了自监督学习在NLP领域的transformer架构的应用,MAE探索了自监督学习在CV的transformer的应用

论文标题中的Auto就是说标号来自于图片本身,暗示了这种无监督的学习

2.方法

像是Bert一样,通过mask形成带掩码的语言模型,挖掉东西,然后让模型来估计

随机盖住一些块patch,然后预测出盖住的patch,预测这个patch里的所有像素

遮住更大的块的话可以让模型学习一些更好的表征

要注意这些模型的基本都很大

2.1 基本流程

(1)首先输入图像随机打成一个一个的块patch,随机遮住其中一些

(2)然后将未遮住的块送入Encoder编码器进行编码 形成特征,这里注意我们的编码器只需要处理未遮住的块,所以计算量要比全部处理更小

(3)和原来遮住的块叠加拼接 再送入decoder解码器恢复被遮住的块

实际使用中,只需要用编码器即可(不需要做掩码)编码器提取特征用于计算机视觉的下游任务

由于编码很重要,所以主要的计算量还是来自编码器

2.2 与VIT比较

(1)盖住更多的块,使得块与块之间的冗余没有那么高

(2)用一个transformer架构的解码器,直接还原原始像素信息,使得整个流程更加简单

(3)加上一些技术,如正则项技术,也可以在小一点的数据集上训练出来,使得训练更加鲁棒

3.实验

映射的维度

微调可以调整个全部的网络,也可以调最后一层,或者调网络中的部分层,微调哪些层

尝试不同遮住率

相关推荐
予枫的编程笔记5 分钟前
【JDK版本】JDK版本迁移避坑指南:从8→17/21实操全解析
java·人工智能·jdk
科技云报道5 分钟前
科技云报到:个人AI时代,超级智能体如何真正为你而来?
人工智能·科技
红头辣椒7 分钟前
AI赋能全流程,重塑需求管理新生态——Visual RM需求数智化平台核心能力解析
人工智能·设计模式·软件工程·需求分析·用户运营
东方佑7 分钟前
思维自指:LLM推理架构的维度突破与意识雏形
人工智能·架构
AI猫站长7 分钟前
快讯|DeepSeek Engram论文详解存算分离,华为SWE-Lego开源轻量级代码智能体全栈方案,
人工智能·机器人·开源·具身智能·deepseek·灵心巧手
CoookeCola9 分钟前
从人脸检测到音频偏移:基于SyncNet的音视频偏移计算与人脸轨迹追踪技术解析
数据仓库·人工智能·目标检测·计算机视觉·数据挖掘
linmoo198610 分钟前
Langchain4j 系列之二十一 - Language Models
人工智能·语言模型·自然语言处理·langchain·指令微调·langchain4j·languagemodel
ai_top_trends12 分钟前
2026 年 AI 生成 PPT 工具推荐清单:测评后给出的答案
人工智能·python·powerpoint
程序新视界12 分钟前
“提供溢出的情绪价值”是AI产品极具可能性的方向
人工智能·后端·产品
xixixi7777715 分钟前
AGI-Next前沿峰会——对于唐杰教授提到的AI下一步方向的“两条思路一次取舍”的思考(思路分析+通俗易懂解释)
人工智能·ai·大模型·agi·通用人工智能·asi