On Data Scaling in Masked Image Modelin

论文名称:On Data Scaling in Masked Image Modeling

发表时间:CVPR2023

作者及组织:Zhenda Xie, ZhengZhang, Hu Han等,来自清华,西安交大,微软亚洲研究院。

前言

本文验证SIMMIM无监督预训练方法,是否会出现与NLP类似的拓展法则现象。

1、结论

这篇论文做了大量的对比实验,因此,先说结论:

1)大模型在小数据上过拟合;(感觉没啥a)

2)MIM需要更多的训练次数 T T T ;

3)预训练阶段的valid loss是对下游任务性能的很好代理指标。

总结:MIM的拓展法则可用这个式子近似:
P r e c i s i o n = D a t a _ S c a l e ∗ M o d e l _ S i z e ∗ T \begin{equation} Precision = Data\_Scale * Model\_Size * T \end{equation} Precision=Data_Scale∗Model_Size∗T

2、实验

2.1.对比实验配置

1)模型 :swin,参数量:50M1B,Flops:9G190G;

2) 数据 :如下图所示,将ImageNet1k按百分比划分出若干组子数据;

3) 训练时长 :125k,250k以及500k。在ImageNet1k上换算就是200,400,800epochs。

2.2.Pretrained实验结论:

上图表示在不同训练时长下在ImageNet1k上的精度:

首先说下simmim预训练方法的一个性质:能够用较少的数据跟用大量数据的有监督学习的精度持平。

1)第二列:Swin_L比Swin_H精度高,因为后者在IN1k20%出现过拟合;

2)当IN1k增加到IN22k时,Swin_H和Swin_G看起来饱和了。这应该是这俩模型的上限了,要想精度更高可能需要调大模型。

3)在800epoch 下,IN1K对于上述五个模型均未出现过拟合!IN1k对于小模型的数据量是够用的。

2.3.Finetune实验结论:

这里主要贴下coco上实验结论:在IN1k下在800epoch下,mAP是一直涨,但在IN22K下mAP似乎也饱和了。(论文中更大模型实验没做a...)

2.4.Pretrain stage的valid loss是Finetune的代理指标

上图红圈表示过拟合模型,绿圈表示非过拟合模型;不管过不过拟合在valid loss跟mAP是正相关的。

2.5.结论

在IN1k,小模型swin_s/b,只要在预训练阶段valid loss持续下降,则训练时长越长越好(至少800epoch)。

相关推荐
一步一个脚印ッ2 分钟前
AI大模型推理:本质是经验推理而非逻辑推理
人工智能
智慧物业老杨2 分钟前
老旧小区团购模式下的数智化工单体系搭建与实践——基于保利项目600+工单的技术落地解析
java·人工智能·后端·科技·struts
weixin_511840472 分钟前
2026年5月7日 AI发展对卫星通讯的影响及太空算力中心建设与发展深度研究
人工智能·市场分析
莱歌数字3 分钟前
理论+仿真+实验:方案设计的“三驾马车”,如何帮您降低试错成本?
人工智能·科技·电脑·制造·散热
TG_yunshuguoji5 分钟前
阿里云代理商:企业如何通过 DeepSeek V4 + 阿里云实现 AI 成本大幅降低?
人工智能·阿里云·ai智能体·deepseek v4
连线Insight9 分钟前
3.5亿月活后,豆包收费是一场冒险吗?
大数据·人工智能
大树8810 分钟前
PUE 1.25红线遇上2300瓦芯片:为什么数据中心开始“算不过来账“了?
人工智能
dayuOK630712 分钟前
不会写文案?我用“看图说话”的方法,10分钟搞定一篇
人工智能·职场和发展·新媒体运营·媒体
G皮T14 分钟前
【人工智能】小镇AI助手诞生记(一文记住40+新兴技术名词)
人工智能·ai·agent·多模态·具身智能·skill·openclaw
数智工坊15 分钟前
【DDIM 论文阅读】:扩散模型加速采样的里程碑!10~50 倍快采 + 确定性生成
论文阅读·人工智能·深度学习·cnn·transformer