【论文笔记】VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval

🍎个人主页:小嗷犬的个人主页

🍊个人网站:小嗷犬的技术小站

🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题 : VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval
作者 : Junjie Zhou, Zheng Liu, Shitao Xiao, Bo Zhao, Yongping Xiong
发表 : ACL 2024 main conference
arXiv : https://arxiv.org/abs/2406.04292

摘要

多模态检索在实践中的应用越来越广泛。然而,现有的检索器大多以文本为导向,缺乏处理视觉信息的能力。尽管存在像CLIP这样的视觉-语言模型,但当前的方法在表示纯文本和纯图像数据方面受到严重限制。

在本工作中,我们提出了一种新的嵌入模型VISTA,用于通用多模态检索。

我们的工作提出了三个方面的技术贡献:

  1. 我们引入了一种灵活的架构,通过引入视觉标记嵌入,将强大的文本编码器与图像理解能力相结合。

  2. 我们开发了两种数据生成策略,这些策略带来了高质量的合成图像-文本,以促进嵌入模型的训练。

  3. 我们引入了一种多阶段训练算法,该算法首先使用大量弱标签数据将视觉标记嵌入与文本编码器对齐,然后利用生成的合成图像-文本数据开发多模态表示能力。

在我们的实验中,VISTA在零样本和监督设置下的各种多模态检索任务中均取得了优异的性能。

我们的模型、数据和源代码可在https://github.com/FlagOpen/FlagEmbedding上获取。

方法

模型架构

Pre-trained Text Encoder : BGE-Base-v1.5
ViT Encoder: EVA-CLIP-02-Base

数据构建

本文的生成数据集与现有数据集对比。

H. Annot.: 是否需要人工标注。

Image&Text To Image (IT2I) Dataset
  1. 从InstructPix2Pix数据集中抽取样本,包含原始图像和对应描述;
  2. 将原始图像描述输入GPT3.5,让其生成多组编辑指令和新的图像描述;
  3. 将新的图像描述输入Stable Diffusion,生成编辑后的图像;
  4. 将得到的原始图像、编辑指令、编辑图像三元组经过CLIP按照一定规则过滤,最终收集307K的IT2I数据。

来自同一个原始图像的多组数据可以互为对方的强负样本。

Text To Image&Text (T2IT) Dataset
  1. 从ShareGPT4V数据集中抽取样本,包含图像和对应描述;
  2. 将图像描述输入GPT3.5,让其生成与图像子主题相关的文章;
  3. 将生成的文章输入GPT3.5,让其生成对应的Query;
  4. 整理得到213K个Query、图像、对应文章三元组。

训练

🔥 ViT Encoder

❄️ Pre-trained Text Encoder

Cross-Modal Training

在Laion-2B数据集上训练图文匹配任务。

Multi-Modal Training

在本文构建的IT2I和T2IT数据集上训练多模态检索任务。

实验

主实验

zero-shot评估结果。

-MM: 在本文生成的多模态检索数据上进行了训练。

WebQA微调结果。

CIRR微调结果。

ReMuQ微调结果。

消融实验

下划线表示有显著提升。

VISTA-SF: 使用VISTA分别对文本和图像进行编码,然后将结果按位相加(score-fusion)。

总结

在这篇论文中,我们介绍了VISTA,一种用于通用多模态检索的视觉文本嵌入方法。

我们的工作做出了三项重要贡献。

  • 首先,我们设计了一种灵活的模型架构,它能够实现文本和图像数据的深度融合,同时保持通用文本嵌入模型强大的性能。
  • 其次,我们开发了两种数据生成策略,用于训练多模态嵌入模型,无需手动标注。
  • 最后,我们引入了一种两阶段训练算法,快速提升VISTA的多模态表示能力。

广泛的实验结果表明,VISTA在零样本和监督微调设置下,在各种多模态检索任务中均表现出优异的性能。

相关推荐
StfinnWu18 小时前
论文阅读:Spatial Frequency Modulation Network for EfficientImage Dehazing
论文阅读
大模型推理18 小时前
《Nano-vLLM 源码解读》第 18 篇 · Embedding 与 LM Head
embedding·vllm
troubles maker19 小时前
LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model
llm·nlp·llama·多模态
Rocky Ding*21 小时前
Token Merging for Fast Stable Diffusion:一篇读懂 Stable Diffusion 的免训练加速机制
论文阅读·人工智能·深度学习·机器学习·stable diffusion·aigc·ai-native
大模型最新论文速读2 天前
小红书提出 RedKnot:分头处理 kv 缓存,延时降低 60%效果还提升
论文阅读·人工智能·深度学习·机器学习·缓存·自然语言处理
传说故事2 天前
【论文阅读】DATA SCALING LAWS IN IMITATION LEARNING FOR ROBOTIC MANIPULATION
论文阅读·人工智能·机器人·具身智能
小马哥crazymxm2 天前
Arxiv论文周选 (2026-W23)
论文阅读·人工智能·科技
大模型最新论文速读2 天前
06-10 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
传说故事2 天前
【论文阅读】WorldArena 2.0:扩展具身世界模型在模态性、功能性与平台上的基准测试
论文阅读·人工智能·具身智能·世界模型
有Li2 天前
HOI-Brain:从fMRI中准确提取带符号高阶交互用于脑疾病诊断的多通道
论文阅读·人工智能·交互·文献·医学生