On Data Scaling in Masked Image Modelin

论文名称：On Data Scaling in Masked Image Modeling

发表时间：CVPR2023

作者及组织：Zhenda Xie, ZhengZhang, Hu Han等，来自清华，西安交大，微软亚洲研究院。

前言

本文验证SIMMIM无监督预训练方法，是否会出现与NLP类似的拓展法则现象。

1、结论

这篇论文做了大量的对比实验，因此，先说结论：

1）大模型在小数据上过拟合；（感觉没啥a）

2）MIM需要更多的训练次数 T T T ;

3）预训练阶段的valid loss是对下游任务性能的很好代理指标。

总结：MIM的拓展法则可用这个式子近似：
P r e c i s i o n = D a t a _ S c a l e ∗ M o d e l _ S i z e ∗ T \begin{equation} Precision = Data\_Scale * Model\_Size * T \end{equation} Precision=Data_Scale∗Model_Size∗T

2、实验

2.1.对比实验配置

1）模型 ：swin，参数量：50M_{1B，Flops：9G}190G；

2) 数据 ：如下图所示，将ImageNet1k按百分比划分出若干组子数据；

3) 训练时长 ：125k，250k以及500k。在ImageNet1k上换算就是200,400,800epochs。

2.2.Pretrained实验结论：

上图表示在不同训练时长下在ImageNet1k上的精度：

首先说下simmim预训练方法的一个性质：能够用较少的数据跟用大量数据的有监督学习的精度持平。

1）第二列：Swin_L比Swin_H精度高，因为后者在IN1k20%出现过拟合；

2）当IN1k增加到IN22k时，Swin_H和Swin_G看起来饱和了。这应该是这俩模型的上限了，要想精度更高可能需要调大模型。

3）在800epoch 下，IN1K对于上述五个模型均未出现过拟合！IN1k对于小模型的数据量是够用的。

2.3.Finetune实验结论：

这里主要贴下coco上实验结论：在IN1k下在800epoch下，mAP是一直涨，但在IN22K下mAP似乎也饱和了。（论文中更大模型实验没做a...）

2.4.Pretrain stage的valid loss是Finetune的代理指标

上图红圈表示过拟合模型，绿圈表示非过拟合模型；不管过不过拟合在valid loss跟mAP是正相关的。

2.5.结论

在IN1k，小模型swin_s/b，只要在预训练阶段valid loss持续下降，则训练时长越长越好（至少800epoch）。