MAE 论文精读 | 在CV领域自监督的Bert思想

1. 背景

之前我们了解了VIT和transformer

MAE 是基于VIT的,不过像BERT探索了自监督学习在NLP领域的transformer架构的应用,MAE探索了自监督学习在CV的transformer的应用

论文标题中的Auto就是说标号来自于图片本身,暗示了这种无监督的学习

2.方法

像是Bert一样,通过mask形成带掩码的语言模型,挖掉东西,然后让模型来估计

随机盖住一些块patch,然后预测出盖住的patch,预测这个patch里的所有像素

遮住更大的块的话可以让模型学习一些更好的表征

要注意这些模型的基本都很大

2.1 基本流程

(1)首先输入图像随机打成一个一个的块patch,随机遮住其中一些

(2)然后将未遮住的块送入Encoder编码器进行编码 形成特征,这里注意我们的编码器只需要处理未遮住的块,所以计算量要比全部处理更小

(3)和原来遮住的块叠加拼接 再送入decoder解码器恢复被遮住的块

实际使用中,只需要用编码器即可(不需要做掩码)编码器提取特征用于计算机视觉的下游任务

由于编码很重要,所以主要的计算量还是来自编码器

2.2 与VIT比较

(1)盖住更多的块,使得块与块之间的冗余没有那么高

(2)用一个transformer架构的解码器,直接还原原始像素信息,使得整个流程更加简单

(3)加上一些技术,如正则项技术,也可以在小一点的数据集上训练出来,使得训练更加鲁棒

3.实验

映射的维度

微调可以调整个全部的网络,也可以调最后一层,或者调网络中的部分层,微调哪些层

尝试不同遮住率

相关推荐
LaughingZhu14 分钟前
Product Hunt 每日热榜 | 2025-10-03
人工智能·经验分享·搜索引擎·产品运营
Godspeed Zhao21 分钟前
自动驾驶中的传感器技术65——Navigation(2)
人工智能·机器学习·自动驾驶
智能交通技术23 分钟前
iTSTech:智慧物流中自动驾驶、无人机与机器人的协同应用场景分析 2025
人工智能·机器学习·机器人·自动驾驶·无人机
先把态度摆正23 分钟前
自动驾驶决策规划算法(开幕式)
人工智能·机器学习·自动驾驶
风遥~1 小时前
快速了解并使用Matplotlib库
人工智能·python·数据分析·matplotlib
用户5191495848451 小时前
每个JavaScript开发者都应掌握的33个核心概念
人工智能·aigc
看今朝·1 小时前
【软件工程3.0】以UTDD/ATDD的理念深度融入AI生产流程
人工智能·软件工程·软件工程3.0·ai生产过程
IT古董2 小时前
【第五章:计算机视觉-项目实战之图像分割实战】2.图像分割实战:人像抠图-(5)模型训练与测试
人工智能·计算机视觉
qq_314009832 小时前
大模型之用LLaMA-Factory微调Deepseek-r1-8b模型实践
人工智能·语言模型
丁学文武2 小时前
大模型原理与实践:第三章-预训练语言模型详解_第2部分-Encoder-Decoder-T5
人工智能·语言模型·自然语言处理·大模型·t5·encoder-decoder