多模态论文阅读之BLIP

BLIP泛读

Title

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

Motivation

  1. 模型角度:clip albef等要么采用encoder-base model 要么采用encoder-decoder model. However, encoder-based models are less straightforward to directly transfer to text generation tasks(e.g. image captioning), whereas encoder-decoder models have not been sucessfully adopted for image-text retrieval tasks. 那有没有一个统一的框架呢?
  2. 数据角度:SOTA的方法(如CLIP、ALBEF等)都在从web上收集到的图文对上进行预训练。尽管通过扩展数据集获得了性能提升,但本文的研究表明,对于视觉语言学习来说,有噪声的网络文本是次优(suboptimal)的。

Contribution

  1. Bootstrapping: 从网页上获得了嘈杂的数据集训练一个模型,再通过一些方法获得一个更干净的数据集,能不能训练处一个更好的模型。
  2. Unified:caption filter

Model

相关推荐
CV-杨帆9 小时前
论文阅读 arxiv 2024 MemGPT: Towards LLMs as Operating Systems
论文阅读
AAA锅包肉批发10 小时前
论文阅读:Aircraft Trajectory Prediction Model Based on Improved GRU Structure
论文阅读·深度学习·gru
星夜Zn21 小时前
Nature论文-预测和捕捉人类认知的基础模型-用大模型模拟人类认知
论文阅读·人工智能·大语言模型·nature·认知建模·统一认知模型
dundunmm1 天前
【论文阅读】Deep Adversarial Multi-view Clustering Network
论文阅读·人工智能·深度学习·聚类·对抗网络·多视图聚类·深度多视图聚类
账户不存在2 天前
《Learning To Count Everything》论文阅读
论文阅读·pytorch·深度学习·无监督训练
CV-杨帆2 天前
论文阅读:AAAI 2024 ExpeL: LLM Agents Are Experiential Learners
论文阅读
万里鹏程转瞬至4 天前
论文阅读:DMD蒸馏 | One-step Diffusion with Distribution Matching Distillation
论文阅读
勤奋的小笼包4 天前
论文阅读笔记:《Dataset Distillation by Matching Training Trajectories》
论文阅读·人工智能·笔记
有Li4 天前
SurgRIPE 挑战赛:手术机器人器械位姿估计基准测试|文献速递-医学影像算法文献分享
论文阅读·数码相机·医学生
张较瘦_4 天前
[论文阅读] 人工智能 + 软件工程 | 大型语言模型与静态代码分析工具:漏洞检测能力大比拼
论文阅读·人工智能·软件工程