[iBOT] Image BERT Pre-Training with Online Tokenizer

1、目的

探索visual tokenizer编码下的MIM(Masked Image Modeling)

2、方法

iBOT(i mage B ERT pre-training with O nline Tokenizer)

1)knowledge distillation(KD)

distill knowledge from the tokenizer

2)self-distillation

twin teacher as online tokenizer

3)visual tokenizer

-> transform the masked patches to supervisory signals for the target model

-> 通过enforce the similarity of cross-view images on class tokens,来捕获到high-level visual semantics

-> 无须额外的训练,通过momentum update来和MIM一同被优化

-> online,而不是pre-fixed

4)网络结构

->

-> 用softmax之后的token,而非ont-hot

5)multi-crop

6)MIM

​​​​​​​

3、结论

1)iBOT is more scalable to larger models

2)iBOT requires more data to train larger model

相关推荐
Soonyang Zhang1 分钟前
MoeDistributeDispatch算子代码阅读
人工智能·算子·ascendc
sanggou5 分钟前
Windsurf AI IDE 完全使用指南
ide·人工智能
2501_941870561 小时前
人工智能与未来的工作:自动化与人类协作的新时代
大数据·人工智能
Blurpath1 小时前
2025 年用ChatGPT+代理构建AI驱动的智能爬虫
人工智能·爬虫·chatgpt·ip代理·住宅ip·动态住宅代理·轮换ip
啦啦啦在冲冲冲1 小时前
lora矩阵的初始化为啥B矩阵为0呢,为啥不是A呢
深度学习·机器学习·矩阵
极客BIM工作室2 小时前
大模型中的Scaling Law:AI的“增长密码“
人工智能
纪伊路上盛名在2 小时前
Alphafold实用指南—官网教程3
数据库·人工智能·机器学习·alphafold·计算生物学·结构生物学
茶杯6752 小时前
数字孪生厂商推荐:跨行业通用型平台与垂直领域专精企业对比指南
人工智能
道可云2 小时前
场景搭桥,产业赋能:新政策如何激活乡村振兴新动能
人工智能