[iBOT] Image BERT Pre-Training with Online Tokenizer

1、目的

探索visual tokenizer编码下的MIM(Masked Image Modeling)

2、方法

iBOT(i mage B ERT pre-training with O nline Tokenizer)

1)knowledge distillation(KD)

distill knowledge from the tokenizer

2)self-distillation

twin teacher as online tokenizer

3)visual tokenizer

-> transform the masked patches to supervisory signals for the target model

-> 通过enforce the similarity of cross-view images on class tokens,来捕获到high-level visual semantics

-> 无须额外的训练,通过momentum update来和MIM一同被优化

-> online,而不是pre-fixed

4)网络结构

->

-> 用softmax之后的token,而非ont-hot

5)multi-crop

6)MIM

​​​​​​​

3、结论

1)iBOT is more scalable to larger models

2)iBOT requires more data to train larger model

相关推荐
HuggingFace23 分钟前
Open R1 项目进展第三期
人工智能
Jackilina_Stone33 分钟前
【大语言模型推理框架】VLLM
人工智能·语言模型·vllm
前端飞天猪43 分钟前
Day1:Deepseek+Kimi 10分钟生成专业PPT
人工智能·开源
日升43 分钟前
Browser-use:基于 Python 的智能浏览器自动化 AI 工具调研与实战
人工智能·python·openai
知来者逆1 小时前
探索生成式AI在游戏开发中的应用——3D角色生成式 AI 实现
人工智能·深度学习·神经网络·计算机视觉·3d·游戏开发
Lx3521 小时前
元宇宙基建:开发者如何搭上AI原生应用快车
人工智能
Dm_dotnet1 小时前
AI工具推荐:使用AnythingLLM帮助你学习
人工智能
钡铼技术物联网关2 小时前
ARM架构+CODESYS:解锁嵌入式边缘计算的实时控制新范式
大数据·linux·arm开发·人工智能·边缘计算
小柚净静2 小时前
什么是边缘计算?
人工智能·边缘计算
说私域2 小时前
数字化转型中的开源AI智能客服与S2B2C商城小程序的融合创新
人工智能·小程序·开源·零售