多模态论文阅读之BLIP

BLIP泛读

Title

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

Motivation

  1. 模型角度:clip albef等要么采用encoder-base model 要么采用encoder-decoder model. However, encoder-based models are less straightforward to directly transfer to text generation tasks(e.g. image captioning), whereas encoder-decoder models have not been sucessfully adopted for image-text retrieval tasks. 那有没有一个统一的框架呢?
  2. 数据角度:SOTA的方法(如CLIP、ALBEF等)都在从web上收集到的图文对上进行预训练。尽管通过扩展数据集获得了性能提升,但本文的研究表明,对于视觉语言学习来说,有噪声的网络文本是次优(suboptimal)的。

Contribution

  1. Bootstrapping: 从网页上获得了嘈杂的数据集训练一个模型,再通过一些方法获得一个更干净的数据集,能不能训练处一个更好的模型。
  2. Unified:caption filter

Model

相关推荐
新手小白勇闯新世界4 小时前
点云论文阅读-1-pointnet++
论文阅读·人工智能·深度学习·神经网络·计算机视觉
小菜日记^_^4 小时前
BEAGLE: Forensics of Deep Learning Backdoor Attack for Better Defense(论文阅读)
论文阅读·人工智能·深度学习·sp·ai安全·backdoor 后门攻击·安全四大
衬衫chenshan7 小时前
【论文阅读】(Security) Assertions by Large Language Models
论文阅读·人工智能·语言模型
YMWM_7 小时前
论文阅读《BEVFormer》
论文阅读
LinKouun7 小时前
论文笔记 SuDORMRF:EFFICIENT NETWORKS FOR UNIVERSAL AUDIO SOURCE SEPARATION
论文阅读
Matrix_1116 小时前
论文阅读:DualDn Dual-domain Denoising via Differentiable ISP
论文阅读·人工智能·计算摄影
小嗷犬16 小时前
【论文笔记】The Power of Scale for Parameter-Efficient Prompt Tuning
论文阅读·人工智能·大模型·微调·prompt
paixiaoxin1 天前
学术界的秘密武器:Zotero7大插件推荐
论文阅读·经验分享·笔记·云计算·学习方法·zotero·1024程序员节
是阿千呀!1 天前
(时序论文阅读)TimeMixer: Decomposable Multiscale Mixing for Time Series Forecasting
论文阅读·人工智能·深度学习·自然语言处理·时间序列处理
九年义务漏网鲨鱼1 天前
【人脸伪造检测后门攻击】 Exploring Frequency Adversarial Attacks for Face Forgery Detection
论文阅读·python·算法·aigc