Transformers在计算机视觉领域中的应用【第2篇:MAE——BERT的CV版本】

目录

  • [1 介绍](#1 介绍)
  • [2 模型示意图](#2 模型示意图)
  • [3 MAE算法](#3 MAE算法)
  • [4 总结](#4 总结)

论文:Masked Autoencoders Are Scalable Vision Learners

代码:https://github.com/facebookresearch/mae

1 介绍

MAE是基于ViT的,将整个训练拓展到没有标号的数据上面,和BERT一样,通过完形填空来获取对图片的理解。MAE不是第一个将BERT拓展到CV上的工作,但是它很有可能是这一系列工作之中未来影响最大的一篇。因为BERT极大地加速了Transformer这个架构在NLP领域中的应用,所以MAE也会使得Transformer在CV上的应用更加普及一些。

文章标题是:带掩码的自编码器是一个可拓展的视觉学习器。标题里的Masked来自于BERT,可以理解成完形填空,每一次挖掉一些东西,然后去预测挖掉的东西。Autoencoder里的auto是"自"的意思,机器学习里有一类模型叫auto 自模型,例如自回归模型,这类模型的特点就是标号和图片,即y和x,是来自于同一个东西,比如说在语言模型里,我们每次用前面的词去预测下一个词,在另一个样本里面,这个预测的词也是标号,也会成为另一个样本的x本身,x和y都是来自于同样的句子里的词,所以叫做auto。

2 模型示意图

模型示意图如下图所示,一张图片输入进来,先把它切成一个个的小块,其中要被盖住的这些块涂成灰色,75%的图片都被盖住了。那些没有被盖住的块被直接拿出来,放到encoder里面,也就是ViT里面,得到每一个块对应的特征,然后拉长,把被盖住的块重新放回原来的位置,所有块输入到一个解码器中,解码器会去尝试把里面的像素信息全部重构回来,使得最后的target训练出来就是原始的没有被掩码盖住的图片。

示意图中编码器比解码器稍微高一点,意思是指主要的计算量都来自编码器,因为最重要的是对图片的像素进行编码,编码器只要去处理没有被盖住的图片,也就是说,一张图片只需要看到四分之一的像素即可,这样计算量稍微低一点。

这个示意图是做预训练时候做的事情,如果你想用这个模型来做计算机任务的话,只需要用它的编码器即可,不需要使用解码器,图片输入进来,不需要对它做掩码,直接切成这些patch,输入到编码器中,就能得到所有块的特征表示,就可以当成这张图片的特征表示,就可以用来做自己的任务了。

下图展示的是在ImageNet的验证集上,通过MAE构造出来的图片。左边一列是把图片80%的块都遮住,中间一列是MAE构造出来的图片,右边一列是原始图片。

3 MAE算法

整体流程和第2章节里提到的一样,这里介绍一下如何重构出原始的像素。

解码器的最后一层是一个线性层,如果一块图片是16×16的像素的话,那么这个线性层就会投影到维度是256的向量,然后再将它reshape成所想要的16×16的维度,就能还原出原始的像素信息了。

损失函数用的是MSE,和BERT一样,只在被盖住的块上面使用MSE,没有被盖住的不计算损失,因为输入已经看到了这些块的像素信息了。

简单实现:将所有的块shuffle后,保留前面25%的块,其他块丢掉;然后重新unshuffle还原回原来的顺序,这样在计算MSE的时候就能对应回原图来计算了。通过shuffle和unshuffle的操作,能使得我们不需要任何的稀疏的操作,在实现起来非常的快。

4 总结

这篇文章利用ViT来做跟BERT一样的自监督学习,在ViT的基础上提出了三点:

  1. 需要盖住更多的块,使得剩下的那些块,块与块之间的冗余度没那么高,这样整个任务就变得复杂一点。
  2. 使用Transformer架构的解码器,直接还原原始的像素信息,使得整个流程更加简单一点。
  3. 加上在ViT工作之后的各种技术,使得它的训练更加鲁棒一点。
相关推荐
workflower2 分钟前
互联网与大数据环境下制造服务模式
人工智能·自然语言处理·数据挖掘·自动驾驶·动态规划·制造
WangN23 分钟前
【通识】RSL-RL快速上手
人工智能·python·机器学习·机器人
lijgvnns5 分钟前
散户做股票研究与复盘,主流AI工具的场景化使用指南
大数据·人工智能·数据挖掘
weixin_446260855 分钟前
学习协调偏好用于多目标多智能体强化学习
人工智能·多智能体
财经资讯数据_灵砚智能6 分钟前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年6月15日
大数据·人工智能·python·信息可视化·自然语言处理
云和数据.ChenGuang8 分钟前
人工智能机器学习的偏置项 剖析
人工智能·深度学习·机器学习·数据挖掘
数据皮皮侠AI9 分钟前
上市公司战略性新兴产业专利数据库(2003-2024)
大数据·人工智能·笔记·机器学习·回归
安逸sgr11 分钟前
《图解机器学习-第五章》:过拟合和欠拟合:为什么训练集很好,测试集很差?
人工智能·机器学习
库拉AI小李11 分钟前
# 数据清洗与分析:Gemini 3.5 处理 Excel 数据的实操体验
前端·人工智能·后端
Xiaofeng369314 分钟前
Claude 4.8 提示词工程:结构化输出的5个黄金模板
人工智能