【论文笔记】VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval

🍎个人主页:小嗷犬的个人主页

🍊个人网站:小嗷犬的技术小站

🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题 : VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval
作者 : Junjie Zhou, Zheng Liu, Shitao Xiao, Bo Zhao, Yongping Xiong
发表 : ACL 2024 main conference
arXiv : https://arxiv.org/abs/2406.04292

摘要

多模态检索在实践中的应用越来越广泛。然而,现有的检索器大多以文本为导向,缺乏处理视觉信息的能力。尽管存在像CLIP这样的视觉-语言模型,但当前的方法在表示纯文本和纯图像数据方面受到严重限制。

在本工作中,我们提出了一种新的嵌入模型VISTA,用于通用多模态检索。

我们的工作提出了三个方面的技术贡献:

  1. 我们引入了一种灵活的架构,通过引入视觉标记嵌入,将强大的文本编码器与图像理解能力相结合。

  2. 我们开发了两种数据生成策略,这些策略带来了高质量的合成图像-文本,以促进嵌入模型的训练。

  3. 我们引入了一种多阶段训练算法,该算法首先使用大量弱标签数据将视觉标记嵌入与文本编码器对齐,然后利用生成的合成图像-文本数据开发多模态表示能力。

在我们的实验中,VISTA在零样本和监督设置下的各种多模态检索任务中均取得了优异的性能。

我们的模型、数据和源代码可在https://github.com/FlagOpen/FlagEmbedding上获取。

方法

模型架构

Pre-trained Text Encoder : BGE-Base-v1.5
ViT Encoder: EVA-CLIP-02-Base

数据构建

本文的生成数据集与现有数据集对比。

H. Annot.: 是否需要人工标注。

Image&Text To Image (IT2I) Dataset
  1. 从InstructPix2Pix数据集中抽取样本,包含原始图像和对应描述;
  2. 将原始图像描述输入GPT3.5,让其生成多组编辑指令和新的图像描述;
  3. 将新的图像描述输入Stable Diffusion,生成编辑后的图像;
  4. 将得到的原始图像、编辑指令、编辑图像三元组经过CLIP按照一定规则过滤,最终收集307K的IT2I数据。

来自同一个原始图像的多组数据可以互为对方的强负样本。

Text To Image&Text (T2IT) Dataset
  1. 从ShareGPT4V数据集中抽取样本,包含图像和对应描述;
  2. 将图像描述输入GPT3.5,让其生成与图像子主题相关的文章;
  3. 将生成的文章输入GPT3.5,让其生成对应的Query;
  4. 整理得到213K个Query、图像、对应文章三元组。

训练

🔥 ViT Encoder

❄️ Pre-trained Text Encoder

Cross-Modal Training

在Laion-2B数据集上训练图文匹配任务。

Multi-Modal Training

在本文构建的IT2I和T2IT数据集上训练多模态检索任务。

实验

主实验

zero-shot评估结果。

-MM: 在本文生成的多模态检索数据上进行了训练。

WebQA微调结果。

CIRR微调结果。

ReMuQ微调结果。

消融实验

下划线表示有显著提升。

VISTA-SF: 使用VISTA分别对文本和图像进行编码,然后将结果按位相加(score-fusion)。

总结

在这篇论文中,我们介绍了VISTA,一种用于通用多模态检索的视觉文本嵌入方法。

我们的工作做出了三项重要贡献。

  • 首先,我们设计了一种灵活的模型架构,它能够实现文本和图像数据的深度融合,同时保持通用文本嵌入模型强大的性能。
  • 其次,我们开发了两种数据生成策略,用于训练多模态嵌入模型,无需手动标注。
  • 最后,我们引入了一种两阶段训练算法,快速提升VISTA的多模态表示能力。

广泛的实验结果表明,VISTA在零样本和监督微调设置下,在各种多模态检索任务中均表现出优异的性能。

相关推荐
有Li6 小时前
基于联邦学习与神经架构搜索的可泛化重建:用于加速磁共振成像|文献速递-最新医学人工智能文献
论文阅读·人工智能·文献·医学生
川川子溢1 天前
【论文阅读】MEDDINOV3:如何调整视觉基础模型用于医学图像分割?
论文阅读
Xy-unu1 天前
[VL|RIS] RSRefSeg 2
论文阅读·人工智能·transformer·论文笔记·分割
张较瘦_1 天前
[论文阅读] 告别“数量为王”:双轨道会议模型+LS,破解AI时代学术交流困局
论文阅读·人工智能
贝塔实验室1 天前
两种常用的抗单粒子翻转动态刷新方法
论文阅读·经验分享·笔记·科技·学习·程序人生·fpga开发
byzy2 天前
【论文笔记】RadarOcc: Robust 3D Occupancy Prediction with 4D Imaging Radar
论文阅读·深度学习·自动驾驶
zstar-_2 天前
【论文阅读】小模型是智能体的未来
论文阅读
无妄无望2 天前
目标计数论文阅读(1)Class-Agnostic Counting
论文阅读·计算机视觉
飞机火车巴雷特2 天前
【论文阅读】Uncertainty Modeling for Out-of-Distribution Generalization (ICLR 2022)
论文阅读·深度学习·不确定性建模
shizidushu2 天前
Graph RAG论文阅读笔记
论文阅读·笔记·graphrag