多模态论文阅读之BLIP

BLIP泛读

Title

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

Motivation

  1. 模型角度:clip albef等要么采用encoder-base model 要么采用encoder-decoder model. However, encoder-based models are less straightforward to directly transfer to text generation tasks(e.g. image captioning), whereas encoder-decoder models have not been sucessfully adopted for image-text retrieval tasks. 那有没有一个统一的框架呢?
  2. 数据角度:SOTA的方法(如CLIP、ALBEF等)都在从web上收集到的图文对上进行预训练。尽管通过扩展数据集获得了性能提升,但本文的研究表明,对于视觉语言学习来说,有噪声的网络文本是次优(suboptimal)的。

Contribution

  1. Bootstrapping: 从网页上获得了嘈杂的数据集训练一个模型,再通过一些方法获得一个更干净的数据集,能不能训练处一个更好的模型。
  2. Unified:caption filter

Model

相关推荐
好悬给我拽开线2 小时前
【论文阅读】Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation
论文阅读
好悬给我拽开线5 小时前
【论文阅读】Grounding Language with Visual Affordances over Unstructured Data
论文阅读
零澪灵5 小时前
ChartLlama: A Multimodal LLM for Chart Understanding and Generation论文阅读
论文阅读·python·自然语言处理·数据分析·nlp
资源分享活雷锋8 小时前
AIGC论文查重是什么?
论文阅读·aigc·论文笔记
Galaxy.40415 小时前
基于深度学习的文本情感原因提取研究综述——论文阅读
论文阅读·笔记
好悬给我拽开线2 天前
【论文阅读】3D Diffuser Actor: Policy Diffusion with 3D Scene Representations
论文阅读
酒饮微醉-2 天前
论文阅读--Planning-oriented Autonomous Driving(一)
论文阅读·笔记·学习·自动驾驶
逐梦苍穹2 天前
速通LLaMA2:《Llama 2: Open Foundation and Fine-Tuned Chat Models》全文解读
论文阅读·人工智能·语言模型·llama·论文笔记·llama2
李加号pluuuus3 天前
【论文阅读】Face2Diffusion for Fast and Editable Face Personalization
论文阅读
万里鹏程转瞬至3 天前
论文阅读: SigLit | SigLip |Sigmoid Loss for Language Image Pre-Training
论文阅读