多模态论文阅读之BLIP

BLIP泛读

Title

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

Motivation

  1. 模型角度:clip albef等要么采用encoder-base model 要么采用encoder-decoder model. However, encoder-based models are less straightforward to directly transfer to text generation tasks(e.g. image captioning), whereas encoder-decoder models have not been sucessfully adopted for image-text retrieval tasks. 那有没有一个统一的框架呢?
  2. 数据角度:SOTA的方法(如CLIP、ALBEF等)都在从web上收集到的图文对上进行预训练。尽管通过扩展数据集获得了性能提升,但本文的研究表明,对于视觉语言学习来说,有噪声的网络文本是次优(suboptimal)的。

Contribution

  1. Bootstrapping: 从网页上获得了嘈杂的数据集训练一个模型,再通过一些方法获得一个更干净的数据集,能不能训练处一个更好的模型。
  2. Unified:caption filter

Model

相关推荐
qq_4162764212 小时前
SuperYOLO:多模态遥感图像中的超分辨率辅助目标检测之论文阅读
论文阅读·人工智能·目标检测
21级的乐未央14 小时前
论文阅读(四):Agglomerative Transformer for Human-Object Interaction Detection
论文阅读·深度学习·计算机视觉·transformer
Ayakanoinu19 小时前
【论文阅读】BEVFormer
论文阅读
一点.点19 小时前
FASIONAD:自适应反馈的类人自动驾驶中快速和慢速思维融合系统——论文阅读
论文阅读·语言模型·自动驾驶
远瞻。1 天前
【论文阅读】人脸修复(face restoration ) 不同先验代表算法整理2
论文阅读·算法
暖季啊1 天前
分割一切(SAM) 论文阅读:Segment Anything
论文阅读·人工智能·神经网络
远瞻。1 天前
【论文阅读】人脸修复(face restoration ) 不同先验代表算法整理
论文阅读·算法
Ayakanoinu1 天前
【论文阅读】针对BEV感知的攻击
论文阅读
开心星人3 天前
【论文阅读】UNIT: Backdoor Mitigation via Automated Neural Distribution Tightening
论文阅读
regret~3 天前
【论文笔记】ViT-CoMer
论文阅读