Exploring the Limits of Masked Visual Representation Learning at Scale论文笔记

论文名称:EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

发表时间:CVPR2023

作者及组织:北京人工智能研究院;华中科技大学;浙江大学;北京理工大学

GitHub:https://github.com/baaivision/EVA

问题与贡献

本文中,作者提出了一个以视觉为中心的基础模型,EVA,来探索大规模masked视觉特征学习的局限性。

EVA is a vanilla ViT pretrained to reconstruct the masked out image-text aligned vision features conditioned on visible image patches.

EVA,是一个普通的ViT模型,预训练任务的目标是重建掩码patches的CLIP特征。通过新的pretext代理任务,可以有效地扩大EVA到10亿参数量,同时在一系列下游任务中取得新的记录。EVA除了可以作为视觉编码器之外,还可以应用到多模态任务中对齐图像和文本。使用EVA初始化CLIP可以极大减少训练波动,相对于从头开始训练CLIP使用更少的样本和计算量,为扩大和加速多模态基础模型的训练提供了一个新的方向。

模型、理论和方法

vision pretext task

基于之前的视觉预训练模型研究工作,有两个主流方案:

  • 重建masked out tokenized semantic vision features;
  • 重建来自大规模预训练模型蒸馏的特征;

两者都使用了预先训练图像文本对齐的视觉特征。通过下面的一些实验,可以发现CLIP的特征标记化对于好的下游任务表现不是必须的;随着预训练时间延长,重建蒸馏特征并不能带来一致的性能增益。作者发现简单地重建以可见图像块为条件的masked图像文本对齐视觉特征 ,效果更好。

pre-training objective

EVA有10亿参数量,与ViT giant和BEiT-3相当。在预训练阶段,EVA没有使用相对位置编码和layer-scale。EVA对输入的patchs进行mask,掩码率为40%。其重建目标来自使用224×224像素图像训练的OpenAI CLIP-L/14视觉encoder。EVA输出特征首先归一化,然后通过线性层映射成CLIP特征相同的维度。使用negative cosine similarity作为损失函数。

EVA的训练数据集共29.6million,来自于不同的开源数据集。用于生成预测模型的CLIP使用4亿图文对数据进行训练。因此,在EVA的预训练阶段也会从这些数据中学习到知识。

pre-training设置

如上图所示,EVA使用Adam优化器进行优化,decoupled weight decay参数设置为0.05。初始学习率设置为1e-3,采用余弦衰减方案缩放学习率。设置随机深度的比例为0.1用于正则化。数据增强的方案采用RandResizeCrop(0.2,1),没有使用Color jitter

预训练过程中的细节如上图所示。作者采用的GPU平台为NVIDIA A100-SXM4-40GB。预训练代码基于BEiT代码修改得来。同样,采用DeepSpeed优化库和ZeRO stage-1优化器来节省显存。在训练过程中,使用fp16精度搭配dynamic loss缩放模型整体收敛稳定,因此使用bfloat16是没有必要的。由于EVA使用fp16精度训练,因此可以使用16×NVIDIA 24GB(32GB)GPUs带(不带)梯度检查点进行预训练。

实验结果

为了证明EVA预训练模型的效果,在不同的下游任务,如图像分类,视频动作识别,目标检测和实例分割,语义分割,以及零样本评估的对比图文预训练,进行实验。

图像分类

对于图像分类任务,EVA在ImageNet-1K 的验证集上进行评估。同时在其他6个数据集上评估模型的鲁棒性和泛化性。

EVA首先在ImageNet-21k上训练60个epoch,然后ImageNet-1K的训练集上训练10个epoch 。与其他网络的复杂结构不同,EVA简单使用一个线性层作为分类器。需要注意的是,在ImageNet-21k上进行中间微调时,相比于MIM的预训练阶段只消耗了约1/5的时间和计算资源。然后对于其他billion参数级别的视觉模型,如SwinV2-G-3B,监督训练阶段消耗的资源约为MIM预训练的1.5倍。

上图为EVA与其他模型在ImageNet-1K上的实验效果。输入大小为336×336时,EVA的top-1精度达到了89.6%。使用更大的输入分辨率 56 0 2 560^2 5602可以进一步将top-1精度提升至89.7%。需要注意的是BEiT-3将图像分类任务作为一个图文检索任务,因此BEiT-3进行图像分类任务时额外引入了十亿参数量的语言编码器,该编码器是由350万图文对和160GB文本数据预训练得到。而EVA仅仅在模型基础上添加一个线性分类层,使用ImageNet-21k图像数据用于微调。使用公开的数据,EVA在ImageNet-1K上取得了一个新的记录。

为了验证EVA模型的鲁棒性和泛化能力,EVA在6个不同ImageNet-1K的非同源数据集上进行实验。如下图所示,EVA与timm库中一些性能较好开源的模型进行比较。所有的模型首先在ImageNet-1K的训练集上进行微调,然后在不同的非同源数据集上进行评估,该过程不做任何参数调整和额外微调。

由于模型的训练数据、输入大小、模型参数量,以及框架无法对齐,因此这些结果无法直接比较。作者以其他6个数据集的平均top-1值和原始ImageNet-1K的top-1之间的差距进行比较。从gap来看,EVA不仅取得了最高的平均值,并且性能差距也是最小的,表明EVA具有优秀的鲁棒性和泛化性。

不同条件下的EVA表现

其中psz14to16表示将patch_embed的kernel_size从14×14调整为16×16.这个对于目标检测、实例分割和语义分割的性能有提升作用。

训练EVA-CLIP

使用EVA初始化CLIP的图像编码器进行训练,在ImageNet-1K下的效果如下:

使用EVA-CLIP构建重建目标

EVA-L是ViT-Larger的一个变体,以MIM方式进行预训练,EVA-CLIP的特征作为预测目标。因此,在EVA-L的预训练阶段会从更强的teacher模型中获取知识。

采用MAE风格的预训练方式,预训练设置如下:

在ImageNet-1K的测试结果如下:

视频动作识别

**数据集:**对于视频动作识别任务,分别在Kinetics-400,Kinetics-600和Kinetics-700数据集上进行实验。首先在一个合并数据集coined Kinetics-722上进行中间微调,该数据集是由K-400,K-600和K-700通过删除在训练集和验证集中重复视频得到。经过去重操作之后,K-722中包含6.3亿视频数据包含722个动作类别。

**训练和评估设置:**EVA处理视频数据仅仅简单通过spatial-temporal attention,没有其他特殊的结构调整。首先使用K-722训练集上训练EVA,然后在每个数据集上仅仅微调1或者2epochs。设置frame×crop×clip为16×3×4用于微调和评估所有数据集。每一帧的分辨率为 22 4 2 224^2 2242。

**结果:**如下图所示,EVA取得更好的效果相对于一些视频分类模型或者更大的基础模型。一个参考指标,对于经过K-722微调后的模型,直接在K-400上进行评估可以取得的top-1精度为88.4%。

目标检测&实例分割

**数据集:**使用COCO和LVISv1.0来评估目标检测和实例分割效果。COCO是一个大规模应用的目标检测数据集,其包含11.8万训练集、5千验证集和2万测试集,共80个类别。LVISv1.0中包含1200个目标类别,由超过2百万高质量的实例分割掩码图像。

**评价指标:**对于COCO,使用标准的box AP A P b o x AP^{box} APbox和mask AP A P m a s k AP^{mask} APmask作为评价指标。而LVISv1.0,给出了 A P b o x , A P m a s k AP^{box},AP^{mask} APbox,APmask和 A P r a t e m a s k AP_{rate}^{mask} APratemask指标。

**训练和评估设置:**EVA使用Cascase Mask R-CNN 作为检测器,采用ViTDet的训练方案和框架配置。按照正常的训练方案,首先在Objects365数据集上进行中间微调,分辨率为 102 4 2 1024^2 10242,然后分别在COCO和LVISv1.0训练集上进行微调,分辨率为 128 0 2 1280^2 12802。

**COCO实验结果:**与其他最先进的方法进行比较,EVA在COCO数据集上创造了一个新的记录。与ViTDet-H相比,同样采用Cascasde Mask R-CNN,EVA结果表示采用一个更大模型,更好的编码器和检测器训练方案,相同框架下模型的效果可以取得很大进步。

**LVIS实验结果:**在LVIS1.0上,EVA使用单尺度评估在所有指标上都取得最好的结果,相较于之前的方法有很大进步。

**LVIS-COCO结果差异分析:**相比于COCO数据集的80类,LVIS有1200类物体,自然而然存在一个长尾分布问题,与现实应用场景更加符合。因此,LVIS相对于COCO更难,常见的方法在LVIS上相对于COCO有一个更大的性能下降。

如下图所示,分析了COCO和LVIS在不同模型的性能差异。对于之前的模型,如ViTDet,在 A P b o x AP^{box} APbox和 A P m a s k AP^{mask} APmask上的性能差异分别8和5。但是,采用相同检测器和参数配置,EVA不仅在LVIS&COCO上取得了最好的效果,同时极大的缩小了两个数据集上的性能。

语义分割

**数据集:**EVA在ADE20K和COCO-Stuff-164K数据集上评估语义分割任务。ADE20K数据集中包含150个分割类别,包含2万张训练集和2千张验证集。COCO-Stuff-164K共包含16.4万张图像数据,包含172个类别。相比于ADE20K,COCO-Stuff更具有挑战性。

**实验结果:**与其他最先进的语义分割方法进行比较,EVA在ADE20K和COCO-Stuff-164K数据集上都取得了较好的结果。可以看到EVA的性能在ADE20K上略低于BEiT-3,这个可能是因为由于资源限制弱化了网络结构配置。

CLIP零样本评估

CLIP是一种多模态基础模型通过对比图像文本预训练来对齐视觉和语言。CLIP可以直接应用于任何图像分类benchmark,仅仅只需要提供数据集的类别名称即可。将EVA作为CLIP的视觉编码器,评估其在零样本图像/视频benchmark上的效果。

**训练设置:**使用预训练的EVA作为CLIP的视觉编码器,语言编码器保持OpenAI CLIP-L原样。该实现是基于Open CLIP代码。使用DeepSpeed优化库来节省显存。作者发现使用fp16精度搭配dynamic loss缩放在整个训练过程能稳定收敛。基于此,训练1.1B的CLIP模型在256× NVIDIA A100 40GB GPUs上batch size可以设置为41k。

**评估设置:**作者在12个数据集上评估每个CLIP模型的零样本图像/识别分类性能。对于零样本分类任务,选择了8个数据集。对于CLIP模型的鲁棒性评估,以这些数据集的平均性能与原始ImageNet-1K验证集的差异作为指标。对于零样本视频分类任务,选择了4个数据集,分别为UCF-101,Kinetics-400,Kinetics-600和Kinetics-700。

**实验结果:**EVA-CLIP取得了最好的平均精度,在12个数据集上有10个为最优。此外,数据集之间的性能差异也是最小的,表示模型具有很好的鲁棒性。

在下图中,展示了EVA-CLIP在零样本、线性探测和端到端微调的top-1精度。该方法相对于现有所有的自监督方法的性能都更好。

EVA-CLIP的视觉分支是从OpenAI CLIP-L中学习得到,而语言分支是用CLIP-L模型直接初始化得到。因此,从430M参数的CLIP-L出发,进一步放大得到1.1B EVA CLIP-g模型,在性能上取得了很大提升。这意味着交错的 MIM 和图像文本对比预训练可能是一种高效且可扩展的 CLIP 训练方法。 据我们所知,EVA CLIP-g 是通过公开数据和资源训练的最大的高性能 CLIP 模型。 我们希望我们在扩展和改进 CLIP 方面的实践也能够启发并转移到其他大规模多模态基础模型的研究。

思考

本文中,作者推出了 EVA,一个 10 亿参数的普通 ViT 编码器,以探索掩码视觉表示学习的局限性。 我们展示了以简单的掩码特征作为重建目标,可以在一组具有代表性和多样化的下游任务中获得优异的结果。 作者希望EVA可以缩小视觉和语言研究之间的差距,为视觉研究做出贡献。

相关推荐
资源分享活雷锋3 小时前
AIGC论文查重是什么?
论文阅读·aigc·论文笔记
Tony聊跨境9 小时前
什么是 SSL 代理?
网络·网络协议·ssl
Galaxy.4049 小时前
基于深度学习的文本情感原因提取研究综述——论文阅读
论文阅读·笔记
pemper_17 小时前
怎么操作使http变成https访问?
网络·网络协议·http·https·ssl
心勤则明1 天前
Netty配置SSL证书加密
服务器·https·ssl
广东数字化转型2 天前
SSL/TSL 总结
网络·网络协议·ssl
小徐敲java2 天前
Windows本地制作java证书(与jeecgboot配置本地证书ssl问题)
java·windows·ssl
好悬给我拽开线2 天前
【论文阅读】3D Diffuser Actor: Policy Diffusion with 3D Scene Representations
论文阅读
酒饮微醉-2 天前
论文阅读--Planning-oriented Autonomous Driving(一)
论文阅读·笔记·学习·自动驾驶
逐梦苍穹2 天前
速通LLaMA2:《Llama 2: Open Foundation and Fine-Tuned Chat Models》全文解读
论文阅读·人工智能·语言模型·llama·论文笔记·llama2