X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks论文笔记

|--------------------------------------------------------------------------------------------------------------|
| Title:X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks |

|----------------------------------------------|
| Code |

1. Motivation

  • CLIP这一类方法只能进行图片级别的视觉和文本对齐;
  • 也有一些方法利用预训练的目标检测器进行目标级别的视觉和文本对齐,但是只能编码目标内部的特征,无法有效表达多目标上下文关联;
  • 本文致力于进行多粒度(objects, regions, and images)的视觉文本对齐预训练任务;

2. 模型结构

3. 损失函数

3.1 contrastive loss

  1. 文本特征和视觉特征之间的相似性定义:
  1. vision-to-text similarity
  1. text-to-vision similarity

  2. GT:one-hot

  3. cross-entropy loss

3.2 matching loss

  1. For each visual concept in a mini-batch, we sample an in-batch hard negative text by following p v 2 t ( V ) p^{v2t}(V) pv2t(V). (与当前视觉特征越接近的文本越可能被采样)
  2. We also sample one hard negative visual concept for each text.
  3. put the pairs as inputs for the fusion module, and then we use xcls, the output CLS embedding of the fusion module, to predict the matching probability p m a t c h p^{match} pmatch , and the loss is:

3.3 masked language modeling loss (MLM)

3.4 bbox loss

相关推荐
cqbzcsq9 天前
CellFlow虚拟细胞论文阅读
论文阅读·人工智能·笔记·学习·生物信息
凌晨一点的秃头猪9 天前
论文阅读 GTI(Graph-based Tree Index): 面向高维空间最近邻搜索的动态图-树混合索引结构
论文阅读
有Li9 天前
PTCMIL:基于提示 token 聚类的全切片图像多实例学习分析文献速递/多模态医学影像最新进展
论文阅读·学习·数据挖掘·聚类·文献·医学生
大模型最新论文速读9 天前
06-16 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
墨绿色的摆渡人9 天前
论文笔记(一百三十七)Learning Dual-Arm Push and Grasp Synergy in Dense Clutter
arm开发·论文阅读
Chunyyyen10 天前
【第四十九周】论文阅读
论文阅读
Biomamba生信基地10 天前
NC | 单细胞分析揭示头颈部癌早期转移过程中潜在的免疫逃逸机制(R语言版本)
论文阅读·生物信息学·单细胞rna测序
大模型最新论文速读10 天前
06-15 · LLM 最新论文速览
论文阅读·人工智能·深度学习·自然语言处理
小马哥crazymxm10 天前
Arxiv论文周选 (2026-W24)
论文阅读·人工智能·考研
大模型最新论文速读10 天前
TRUST:RL 时保留模型的不确定性,效果提升 8%
论文阅读·人工智能·深度学习·机器学习·自然语言处理