[iBOT] Image BERT Pre-Training with Online Tokenizer

1、目的

探索visual tokenizer编码下的MIM(Masked Image Modeling)

2、方法

iBOT(i mage B ERT pre-training with O nline Tokenizer)

1)knowledge distillation(KD)

distill knowledge from the tokenizer

2)self-distillation

twin teacher as online tokenizer

3)visual tokenizer

-> transform the masked patches to supervisory signals for the target model

-> 通过enforce the similarity of cross-view images on class tokens,来捕获到high-level visual semantics

-> 无须额外的训练,通过momentum update来和MIM一同被优化

-> online,而不是pre-fixed

4)网络结构

->

-> 用softmax之后的token,而非ont-hot

5)multi-crop

6)MIM

​​​​​​​

3、结论

1)iBOT is more scalable to larger models

2)iBOT requires more data to train larger model

相关推荐
plusplus16814 分钟前
边缘智能实战手册:攻克IoT应用三大挑战的AI战术
人工智能·物联网
果粒橙_LGC1 小时前
论文阅读系列(一)Qwen-Image Technical Report
论文阅读·人工智能·学习
雷达学弱狗1 小时前
backward怎么计算的是torch.tensor(2.0, requires_grad=True)变量的梯度
人工智能·pytorch·深度学习
Seeklike1 小时前
diffuxers学习--AutoPipeline
人工智能·python·stable diffusion·diffusers
CoovallyAIHub1 小时前
为高空安全上双保险!无人机AI护航,YOLOv5秒判安全带,守护施工生命线
深度学习·算法·计算机视觉
杨过过儿1 小时前
【Task01】:简介与环境配置(第一章1、2节)
人工智能·自然语言处理
小妖同学学AI1 小时前
deepseek一键生成word和excel并一键下载
人工智能·word·excel·deepseek
黎燃2 小时前
AI助力垃圾分类与回收的可行性研究:从算法到落地的深度解析
人工智能
强盛小灵通专卖员2 小时前
DL00291-联邦学习以去中心化锂离子电池健康预测模型完整实现
人工智能·机器学习·深度强化学习·核心期刊·导师·小论文·大论文
Hello123网站2 小时前
多墨智能-AI一键生成工作文档/流程图/思维导图
人工智能·流程图·ai工具