多模态论文阅读之BLIP

BLIP泛读

Title

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

Motivation

  1. 模型角度:clip albef等要么采用encoder-base model 要么采用encoder-decoder model. However, encoder-based models are less straightforward to directly transfer to text generation tasks(e.g. image captioning), whereas encoder-decoder models have not been sucessfully adopted for image-text retrieval tasks. 那有没有一个统一的框架呢?
  2. 数据角度:SOTA的方法(如CLIP、ALBEF等)都在从web上收集到的图文对上进行预训练。尽管通过扩展数据集获得了性能提升,但本文的研究表明,对于视觉语言学习来说,有噪声的网络文本是次优(suboptimal)的。

Contribution

  1. Bootstrapping: 从网页上获得了嘈杂的数据集训练一个模型,再通过一些方法获得一个更干净的数据集,能不能训练处一个更好的模型。
  2. Unified:caption filter

Model

相关推荐
imbackneverdie4 小时前
6个常用国自然课题项目查询网站,码住以备不时之需
论文阅读·人工智能·aigc·科研·国自然·ai工具·国家自然科学基金
蓝田生玉1235 小时前
qwen2.5论文阅读笔记
论文阅读·笔记
SUNNY_SHUN12 小时前
ICLR 2026 | Judo: 7B小模型工业缺陷问答超越GPT-4o,用对比学习+强化学习注入领域知识
论文阅读·人工智能·学习·视觉检测·github
sin°θ_陈17 小时前
前馈式3D Gaussian Splatting 研究地图(总览篇):解构七大路线,梳理方法谱系,看懂关键分歧与未来趋势
论文阅读·深度学习·算法·3d·aigc·空间计算·3dgs
智算菩萨1 天前
【实战讲解】ChatGPT 5.4深度文献检索完全指南:提示词工程与学术实战策略
论文阅读·人工智能·gpt·搜索引擎·chatgpt·提示词·论文笔记
檐下翻书1732 天前
音乐产业版权管理与运营流程图表制作方法
论文阅读·信息可视化·毕业设计·流程图·论文笔记
森诺Alyson2 天前
前沿技术借鉴研讨-2026.3.26(解决虚假特征x2/混合专家对比学习框架)
论文阅读·人工智能·经验分享·深度学习·学习·论文笔记
森诺Alyson2 天前
前沿技术借鉴研讨-2026.3.19(睡眠分期/Agents模拟临床会诊/多模态抑郁症检测)
论文阅读·经验分享·深度学习·论文笔记·论文讨论
imbackneverdie2 天前
如何从海量文献中跨界汲取创新灵感?
论文阅读·人工智能·ai·自然语言处理·aigc·ai写作·ai工具
云霄星乖乖的果冻3 天前
【文献阅读:RobustRAG】Certifiably Robust RAG against Retrieval Corruption
论文阅读