多模态论文阅读之BLIP

幸运的小菜鸟2023-11-06 4:00

BLIP泛读

Title
Motivation
Contribution
Model

Title

BLIP: Bootstrapping Language-Image Pre-training for Uniﬁed Vision-Language Understanding and Generation

Motivation

模型角度：clip albef等要么采用encoder-base model 要么采用encoder-decoder model. However, encoder-based models are less straightforward to directly transfer to text generation tasks(e.g. image captioning), whereas encoder-decoder models have not been sucessfully adopted for image-text retrieval tasks. 那有没有一个统一的框架呢？
数据角度：SOTA的方法（如CLIP、ALBEF等）都在从web上收集到的图文对上进行预训练。尽管通过扩展数据集获得了性能提升，但本文的研究表明，对于视觉语言学习来说，有噪声的网络文本是次优（suboptimal）的。

Contribution

Bootstrapping: 从网页上获得了嘈杂的数据集训练一个模型，再通过一些方法获得一个更干净的数据集，能不能训练处一个更好的模型。
Unified:caption filter

Model

上一篇：第五章 Python文件操作

下一篇：路由器基础（一）：路由器原理

热门推荐

01GitHub 镜像站点 02BongoCat - 跨平台键盘猫动画工具 03【保姆级教程】免费使用Gemini3的5种方法！免翻墙/国内直连 04UV安装并设置国内源 05安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）06Linux下V2Ray安装配置指南 07Google Antigravity：无法登录？早期错误、登录修复和用户反馈指南 08Labelme从安装到标注：零基础完整指南 09全球最强模型Grok4，国内已可免费使用！（附教程）1046个Nano-banana 精选提示词，持续更新中