【多模态】BEIT: BERT Pre-Training of Image Transformers

论文:BEIT: BERT Pre-Training of Image Transformers

链接:https://arxiv.org/pdf/2301.00184

Introduction

  1. BEIT(Bidirectional Encoder representation from Image Transformers)
  2. Motivation: 启发于BERT的自编码方式(随机mask进行token预测)
  3. 难点:没有视觉词表,无法简单应用softmax分类器预测candidates。
  4. 直观感受是将该问题视为回归问题,预测masked patch的每个像素点,但是这会导致浪费模型能力在建立短程依赖和高频细节上。(waste modeling capability on pre-training shortrange dependencies and high-frequency details)
  5. 最终解决方案
    1) Overview

    2)两种view,image patches and visual tokens。首先将图像划分为patches并随机mask作为模型输入。然后通过VAE将图像tokenize为离散的视觉token。模型最终学习目标为,recover the visual tokens not pixels of masked patches。
    3)实验结果:BEIT 优于从头开始训练和以前的强自监督模型

Details

  1. Image Patch,输入图像维度 x ∈ R H ∗ W ∗ C x \in R^{H*W*C} x∈RH∗W∗C,reshape成为 N = H W / P 2 N=HW/P^2 N=HW/P2个patch, x p ∈ R N ∗ ( P 2 C ) x^p\in\mathbb{R}^{N*(P^2C)} xp∈RN∗(P2C),C为通道数。在该实验中,split 224 × 224 image into a 14 × 14 grid of image patches, where each patch is 16 × 16.
  2. Visual Token,直接将图像tokenize为 z = [ z 1 , . . . z N ] ∈ V h ∗ w z=[z_1,...z_N]\in \mathbb{V}^{h*w} z=[z1,...zN]∈Vh∗w,tokenizer为训练好的discrete variational autoencoder (dVAE),该自编码器包括encoder和decoder两部分,encoder负责将图像输入映射到视觉词表,decoder负责根据encoder的结果重建输入。在本文中仅需要使用训练好的encoder部分作为tokenizer以及对应词表。词表大小为8192
  3. Backbone Network: Image Transformer,在输入前加入special token [S]。
  4. Pre-Training BEIT: Masked Image Modeling(MIM) 。随机mask40%的patches,masked位置由[M] token替代。
    训练目标为感觉masked patch预测相应位置的visual token:
    • blockwise masking,类似于bert中的n gram mask,先随机生成块大小,再选定纵横比 :

实验

  1. 参数设置:ImageNet-1K,1.2M图像。12-layer Transformer with 768 hidden size, and 12 attention heads,intermediate size of feed-forward networks is 3072,16 × 16 input patch size,视觉词表8192. 图像处理包括随机调整大小的裁剪,水平翻转,颜色抖动。2k batch size,800epoch。500k training steps take about five days using 16 Nvidia Telsa V100 32GB GPU cards。
  2. 下游任务微调:
    • 在图像分类任务上,加入一个简单的线性分类器作为任务层,使用average pooling作为最终表示过softmax。
    • 在语义分割上,引入几个反卷积层
    • Intermediate fine-tuning,进一步进行beit的微调应用于下游任务
  3. 主要对比实验,384为输入图像大小
  4. 收敛实验,BEiT收敛速度更快
  5. 语义分割实验
  6. 消融实验,预测visual tokem最重要
  7. 可视化结果
相关推荐
风象南42 分钟前
Claude Code这个隐藏技能,让我告别PPT焦虑
人工智能·后端
Mintopia1 小时前
OpenClaw 对软件行业产生的影响
人工智能
陈广亮2 小时前
构建具有长期记忆的 AI Agent:从设计模式到生产实践
人工智能
会写代码的柯基犬2 小时前
DeepSeek vs Kimi vs Qwen —— AI 生成俄罗斯方块代码效果横评
人工智能·llm
Mintopia3 小时前
OpenClaw 是什么?为什么节后热度如此之高?
人工智能
爱可生开源社区3 小时前
DBA 的未来?八位行业先锋的年度圆桌讨论
人工智能·dba
叁两5 小时前
用opencode打造全自动公众号写作流水线,AI 代笔太香了!
前端·人工智能·agent
前端付豪6 小时前
LangChain记忆:通过Memory记住上次的对话细节
人工智能·python·langchain
strayCat232556 小时前
Clawdbot 源码解读 7: 扩展机制
人工智能·开源