【论文笔记】VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval

🍎个人主页:小嗷犬的个人主页

🍊个人网站:小嗷犬的技术小站

🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题 : VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval
作者 : Junjie Zhou, Zheng Liu, Shitao Xiao, Bo Zhao, Yongping Xiong
发表 : ACL 2024 main conference
arXiv : https://arxiv.org/abs/2406.04292

摘要

多模态检索在实践中的应用越来越广泛。然而,现有的检索器大多以文本为导向,缺乏处理视觉信息的能力。尽管存在像CLIP这样的视觉-语言模型,但当前的方法在表示纯文本和纯图像数据方面受到严重限制。

在本工作中,我们提出了一种新的嵌入模型VISTA,用于通用多模态检索。

我们的工作提出了三个方面的技术贡献:

  1. 我们引入了一种灵活的架构,通过引入视觉标记嵌入,将强大的文本编码器与图像理解能力相结合。

  2. 我们开发了两种数据生成策略,这些策略带来了高质量的合成图像-文本,以促进嵌入模型的训练。

  3. 我们引入了一种多阶段训练算法,该算法首先使用大量弱标签数据将视觉标记嵌入与文本编码器对齐,然后利用生成的合成图像-文本数据开发多模态表示能力。

在我们的实验中,VISTA在零样本和监督设置下的各种多模态检索任务中均取得了优异的性能。

我们的模型、数据和源代码可在https://github.com/FlagOpen/FlagEmbedding上获取。

方法

模型架构

Pre-trained Text Encoder : BGE-Base-v1.5
ViT Encoder: EVA-CLIP-02-Base

数据构建

本文的生成数据集与现有数据集对比。

H. Annot.: 是否需要人工标注。

Image&Text To Image (IT2I) Dataset
  1. 从InstructPix2Pix数据集中抽取样本,包含原始图像和对应描述;
  2. 将原始图像描述输入GPT3.5,让其生成多组编辑指令和新的图像描述;
  3. 将新的图像描述输入Stable Diffusion,生成编辑后的图像;
  4. 将得到的原始图像、编辑指令、编辑图像三元组经过CLIP按照一定规则过滤,最终收集307K的IT2I数据。

来自同一个原始图像的多组数据可以互为对方的强负样本。

Text To Image&Text (T2IT) Dataset
  1. 从ShareGPT4V数据集中抽取样本,包含图像和对应描述;
  2. 将图像描述输入GPT3.5,让其生成与图像子主题相关的文章;
  3. 将生成的文章输入GPT3.5,让其生成对应的Query;
  4. 整理得到213K个Query、图像、对应文章三元组。

训练

🔥 ViT Encoder

❄️ Pre-trained Text Encoder

Cross-Modal Training

在Laion-2B数据集上训练图文匹配任务。

Multi-Modal Training

在本文构建的IT2I和T2IT数据集上训练多模态检索任务。

实验

主实验

zero-shot评估结果。

-MM: 在本文生成的多模态检索数据上进行了训练。

WebQA微调结果。

CIRR微调结果。

ReMuQ微调结果。

消融实验

下划线表示有显著提升。

VISTA-SF: 使用VISTA分别对文本和图像进行编码,然后将结果按位相加(score-fusion)。

总结

在这篇论文中,我们介绍了VISTA,一种用于通用多模态检索的视觉文本嵌入方法。

我们的工作做出了三项重要贡献。

  • 首先,我们设计了一种灵活的模型架构,它能够实现文本和图像数据的深度融合,同时保持通用文本嵌入模型强大的性能。
  • 其次,我们开发了两种数据生成策略,用于训练多模态嵌入模型,无需手动标注。
  • 最后,我们引入了一种两阶段训练算法,快速提升VISTA的多模态表示能力。

广泛的实验结果表明,VISTA在零样本和监督微调设置下,在各种多模态检索任务中均表现出优异的性能。

相关推荐
张较瘦_10 小时前
[论文阅读] AI + 教育 | AI赋能“三个课堂”的破局之道——具身认知与技术路径深度解读
论文阅读·人工智能
CV-杨帆1 天前
论文阅读:arxiv 2025 OptimalThinkingBench: Evaluating Over and Underthinking in LLMs
论文阅读
七元权1 天前
论文阅读-EfficientAD
论文阅读·深度学习·实时·异常检测
Matrix_111 天前
论文阅读:Multi-Spectral Image Color Reproduction
论文阅读·人工智能·计算摄影
噜~噜~噜~2 天前
论文笔记:“Mind the Gap Preserving and Compensating for the Modality Gap in“
论文阅读
张较瘦_2 天前
[论文阅读] AI+ | 从 “刚性科层” 到 “智能协同”:一文读懂 AI 应对国家安全风险的核心逻辑
论文阅读·人工智能
张较瘦_2 天前
[论文阅读] AI+ | GenAI重塑智慧图书馆:华东师大实践AI虚拟馆员,解放馆员聚焦高价值任务
论文阅读·人工智能
CoookeCola3 天前
MovieNet (paper) :推动电影理解研究的综合数据集与基准
数据库·论文阅读·人工智能·计算机视觉·视觉检测·database
rengang664 天前
352-Spring AI Alibaba OpenAI DashScope 多模态示例
java·人工智能·spring·多模态·spring ai·ai应用编程
张较瘦_4 天前
[论文阅读] AI+ | AI如何重塑审计行业?从“手工筛查”到“智能决策”:AI审计的核心逻辑与未来路径
论文阅读·人工智能