【论文笔记】VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval

🍎个人主页:小嗷犬的个人主页

🍊个人网站:小嗷犬的技术小站

🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题 : VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval
作者 : Junjie Zhou, Zheng Liu, Shitao Xiao, Bo Zhao, Yongping Xiong
发表 : ACL 2024 main conference
arXiv : https://arxiv.org/abs/2406.04292

摘要

多模态检索在实践中的应用越来越广泛。然而,现有的检索器大多以文本为导向,缺乏处理视觉信息的能力。尽管存在像CLIP这样的视觉-语言模型,但当前的方法在表示纯文本和纯图像数据方面受到严重限制。

在本工作中,我们提出了一种新的嵌入模型VISTA,用于通用多模态检索。

我们的工作提出了三个方面的技术贡献:

  1. 我们引入了一种灵活的架构,通过引入视觉标记嵌入,将强大的文本编码器与图像理解能力相结合。

  2. 我们开发了两种数据生成策略,这些策略带来了高质量的合成图像-文本,以促进嵌入模型的训练。

  3. 我们引入了一种多阶段训练算法,该算法首先使用大量弱标签数据将视觉标记嵌入与文本编码器对齐,然后利用生成的合成图像-文本数据开发多模态表示能力。

在我们的实验中,VISTA在零样本和监督设置下的各种多模态检索任务中均取得了优异的性能。

我们的模型、数据和源代码可在https://github.com/FlagOpen/FlagEmbedding上获取。

方法

模型架构

Pre-trained Text Encoder : BGE-Base-v1.5
ViT Encoder: EVA-CLIP-02-Base

数据构建

本文的生成数据集与现有数据集对比。

H. Annot.: 是否需要人工标注。

Image&Text To Image (IT2I) Dataset
  1. 从InstructPix2Pix数据集中抽取样本,包含原始图像和对应描述;
  2. 将原始图像描述输入GPT3.5,让其生成多组编辑指令和新的图像描述;
  3. 将新的图像描述输入Stable Diffusion,生成编辑后的图像;
  4. 将得到的原始图像、编辑指令、编辑图像三元组经过CLIP按照一定规则过滤,最终收集307K的IT2I数据。

来自同一个原始图像的多组数据可以互为对方的强负样本。

Text To Image&Text (T2IT) Dataset
  1. 从ShareGPT4V数据集中抽取样本,包含图像和对应描述;
  2. 将图像描述输入GPT3.5,让其生成与图像子主题相关的文章;
  3. 将生成的文章输入GPT3.5,让其生成对应的Query;
  4. 整理得到213K个Query、图像、对应文章三元组。

训练

🔥 ViT Encoder

❄️ Pre-trained Text Encoder

Cross-Modal Training

在Laion-2B数据集上训练图文匹配任务。

Multi-Modal Training

在本文构建的IT2I和T2IT数据集上训练多模态检索任务。

实验

主实验

zero-shot评估结果。

-MM: 在本文生成的多模态检索数据上进行了训练。

WebQA微调结果。

CIRR微调结果。

ReMuQ微调结果。

消融实验

下划线表示有显著提升。

VISTA-SF: 使用VISTA分别对文本和图像进行编码,然后将结果按位相加(score-fusion)。

总结

在这篇论文中,我们介绍了VISTA,一种用于通用多模态检索的视觉文本嵌入方法。

我们的工作做出了三项重要贡献。

  • 首先,我们设计了一种灵活的模型架构,它能够实现文本和图像数据的深度融合,同时保持通用文本嵌入模型强大的性能。
  • 其次,我们开发了两种数据生成策略,用于训练多模态嵌入模型,无需手动标注。
  • 最后,我们引入了一种两阶段训练算法,快速提升VISTA的多模态表示能力。

广泛的实验结果表明,VISTA在零样本和监督微调设置下,在各种多模态检索任务中均表现出优异的性能。

相关推荐
STLearner1 小时前
AI论文速读 | 元认知监控赋能深度搜索:认知神经科学启发的分层优化框架
大数据·论文阅读·人工智能·python·深度学习·学习·机器学习
xx_xxxxx_5 小时前
常见多模态架构CLIP/BLIP/Llava/CogVLM
人工智能·深度学习·机器学习·transformer·多模态
xixixi777771 天前
安全嵌入全链路:从模型训练到智能体交互,通信网络是AI安全的“地基”
人工智能·安全·ai·多模态·数据·通信·合规
Anastasiozzzz1 天前
深入理解RAG:文本分片(Chunking)
embedding
人工智能小豪1 天前
LLM的具身鸿沟有解了!微调让大模型真正学会人类的感官与动作感知
人工智能·ai·llm·prompt·embedding·agent·rag
imbackneverdie2 天前
6个常用国自然课题项目查询网站,码住以备不时之需
论文阅读·人工智能·aigc·科研·国自然·ai工具·国家自然科学基金
蓝田生玉1232 天前
qwen2.5论文阅读笔记
论文阅读·笔记
mo_alo2 天前
Everything Claude Code 完全指南:给 Claude Code 装上涡轮增压【安装和使用超详细教程!!!】
笔记·embedding·ai编程·claude·ecc
SUNNY_SHUN2 天前
ICLR 2026 | Judo: 7B小模型工业缺陷问答超越GPT-4o,用对比学习+强化学习注入领域知识
论文阅读·人工智能·学习·视觉检测·github
余俊晖2 天前
多模态文档解析新思路:MinerU-Diffusion通过扩散解码进行文档OCR
人工智能·ocr·多模态