多模态论文阅读之BLIP

BLIP泛读

Title

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

Motivation

  1. 模型角度:clip albef等要么采用encoder-base model 要么采用encoder-decoder model. However, encoder-based models are less straightforward to directly transfer to text generation tasks(e.g. image captioning), whereas encoder-decoder models have not been sucessfully adopted for image-text retrieval tasks. 那有没有一个统一的框架呢?
  2. 数据角度:SOTA的方法(如CLIP、ALBEF等)都在从web上收集到的图文对上进行预训练。尽管通过扩展数据集获得了性能提升,但本文的研究表明,对于视觉语言学习来说,有噪声的网络文本是次优(suboptimal)的。

Contribution

  1. Bootstrapping: 从网页上获得了嘈杂的数据集训练一个模型,再通过一些方法获得一个更干净的数据集,能不能训练处一个更好的模型。
  2. Unified:caption filter

Model

相关推荐
何如千泷39 分钟前
【论文阅读】MediCLIP: Adapting CLIP for Few-shot Medical Image Anomaly Detection
论文阅读·异常检测·clip
数据艺术家.2 小时前
【论文笔记】On Generative Agents in Recommendation
论文阅读·论文·推荐系统·论文笔记·推荐算法·llm4rec·agent4rec
EchoL、2 小时前
【论文阅读】SteganoGAN:High Capacity Image Steganography with GANs
论文阅读·人工智能·笔记·算法
红苕稀饭6662 小时前
Deep Audio-Visual Speech Recognition论文阅读
论文阅读
有Li4 小时前
泛用型nnUNet脑血管周围间隙识别系统(PINGU)|文献速递-医疗影像分割与目标检测最新技术
论文阅读·深度学习·文献·医学生
墨绿色的摆渡人4 小时前
论文笔记(一百一十三)3D Gaussian Splatting for Real-Time Radiance Field Rendering
论文阅读
森诺Alyson20 小时前
前沿技术借鉴研讨-2025.12.23(荟萃分析/信号提取/轻量级模型)
论文阅读·人工智能·经验分享·论文笔记·论文讨论
有Li1 天前
MIRAGE:针对嘈杂环境鲁棒性的医学图像-文本预训练|文献速递-医疗影像分割与目标检测最新技术
论文阅读·人工智能·深度学习·计算机视觉·文献·医学生
EchoL、1 天前
【论文阅读】HiDDeN:Hiding Data With Deep Networks
论文阅读·笔记·机器学习
张较瘦_1 天前
[论文阅读] 远程工作中的“隐形障碍”:残障开发者在软件开发团队的挑战与破局之道
论文阅读·远程工作