【论文笔记】VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval

🍎个人主页:小嗷犬的个人主页

🍊个人网站:小嗷犬的技术小站

🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题 : VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval
作者 : Junjie Zhou, Zheng Liu, Shitao Xiao, Bo Zhao, Yongping Xiong
发表 : ACL 2024 main conference
arXiv : https://arxiv.org/abs/2406.04292

摘要

多模态检索在实践中的应用越来越广泛。然而,现有的检索器大多以文本为导向,缺乏处理视觉信息的能力。尽管存在像CLIP这样的视觉-语言模型,但当前的方法在表示纯文本和纯图像数据方面受到严重限制。

在本工作中,我们提出了一种新的嵌入模型VISTA,用于通用多模态检索。

我们的工作提出了三个方面的技术贡献:

  1. 我们引入了一种灵活的架构,通过引入视觉标记嵌入,将强大的文本编码器与图像理解能力相结合。

  2. 我们开发了两种数据生成策略,这些策略带来了高质量的合成图像-文本,以促进嵌入模型的训练。

  3. 我们引入了一种多阶段训练算法,该算法首先使用大量弱标签数据将视觉标记嵌入与文本编码器对齐,然后利用生成的合成图像-文本数据开发多模态表示能力。

在我们的实验中,VISTA在零样本和监督设置下的各种多模态检索任务中均取得了优异的性能。

我们的模型、数据和源代码可在https://github.com/FlagOpen/FlagEmbedding上获取。

方法

模型架构

Pre-trained Text Encoder : BGE-Base-v1.5
ViT Encoder: EVA-CLIP-02-Base

数据构建

本文的生成数据集与现有数据集对比。

H. Annot.: 是否需要人工标注。

Image&Text To Image (IT2I) Dataset
  1. 从InstructPix2Pix数据集中抽取样本,包含原始图像和对应描述;
  2. 将原始图像描述输入GPT3.5,让其生成多组编辑指令和新的图像描述;
  3. 将新的图像描述输入Stable Diffusion,生成编辑后的图像;
  4. 将得到的原始图像、编辑指令、编辑图像三元组经过CLIP按照一定规则过滤,最终收集307K的IT2I数据。

来自同一个原始图像的多组数据可以互为对方的强负样本。

Text To Image&Text (T2IT) Dataset
  1. 从ShareGPT4V数据集中抽取样本,包含图像和对应描述;
  2. 将图像描述输入GPT3.5,让其生成与图像子主题相关的文章;
  3. 将生成的文章输入GPT3.5,让其生成对应的Query;
  4. 整理得到213K个Query、图像、对应文章三元组。

训练

🔥 ViT Encoder

❄️ Pre-trained Text Encoder

Cross-Modal Training

在Laion-2B数据集上训练图文匹配任务。

Multi-Modal Training

在本文构建的IT2I和T2IT数据集上训练多模态检索任务。

实验

主实验

zero-shot评估结果。

-MM: 在本文生成的多模态检索数据上进行了训练。

WebQA微调结果。

CIRR微调结果。

ReMuQ微调结果。

消融实验

下划线表示有显著提升。

VISTA-SF: 使用VISTA分别对文本和图像进行编码,然后将结果按位相加(score-fusion)。

总结

在这篇论文中,我们介绍了VISTA,一种用于通用多模态检索的视觉文本嵌入方法。

我们的工作做出了三项重要贡献。

  • 首先,我们设计了一种灵活的模型架构,它能够实现文本和图像数据的深度融合,同时保持通用文本嵌入模型强大的性能。
  • 其次,我们开发了两种数据生成策略,用于训练多模态嵌入模型,无需手动标注。
  • 最后,我们引入了一种两阶段训练算法,快速提升VISTA的多模态表示能力。

广泛的实验结果表明,VISTA在零样本和监督微调设置下,在各种多模态检索任务中均表现出优异的性能。

相关推荐
山顶夕景1 天前
【LLM】多模态智能体Kimi-K2.5模型
llm·agent·多模态
番茄大王sc2 天前
2026年科研AI工具深度测评:文献调研与综述生成领域
论文阅读·人工智能·学习方法·论文笔记
码界奇点2 天前
基于Gin与GORM的若依后台管理系统设计与实现
论文阅读·go·毕业设计·gin·源代码管理
森诺Alyson2 天前
前沿技术借鉴研讨-2026.1.29(时间序列预测)
论文阅读·人工智能·经验分享·深度学习·论文笔记
有Li2 天前
多视图深度学习乳腺X线摄影分类技术:图和Transformer架构的探究/文献速递-基于人工智能的医学影像技术
论文阅读·深度学习·文献·医学生
阿杰学AI3 天前
AI核心知识72——大语言模型之Native Multimodality(简洁且通俗易懂版)
人工智能·ai·语言模型·aigc·语音识别·多模态·原生多模态
数说星榆1813 天前
前后端分离开发流程-泳道图设计与应用
论文阅读·职场和发展·毕业设计·流程图·职场发展·论文笔记·毕设
数说星榆1813 天前
项目管理流程图-泳道图模板免费下载
论文阅读·毕业设计·流程图·论文笔记·毕设
羊城迷鹿3 天前
从LoRA到OFT:Qwen2.5-VL在昇腾910B与4090上的多模态微调实践与踩坑记录
大模型·微调·多模态·qwen·llamafactory·oft
孙琦Ray3 天前
GitHub开源项目月报 · 2026年1月 · 开源AI代理热榜解读
开源·软件开发·多模态·rag·知识管理·ai代理·终端桌面