X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks论文笔记

|--------------------------------------------------------------------------------------------------------------|
| Title:X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks |

|----------------------------------------------|
| Code |

1. Motivation

  • CLIP这一类方法只能进行图片级别的视觉和文本对齐;
  • 也有一些方法利用预训练的目标检测器进行目标级别的视觉和文本对齐,但是只能编码目标内部的特征,无法有效表达多目标上下文关联;
  • 本文致力于进行多粒度(objects, regions, and images)的视觉文本对齐预训练任务;

2. 模型结构

3. 损失函数

3.1 contrastive loss

  1. 文本特征和视觉特征之间的相似性定义:
  1. vision-to-text similarity
  1. text-to-vision similarity

  2. GT:one-hot

  3. cross-entropy loss

3.2 matching loss

  1. For each visual concept in a mini-batch, we sample an in-batch hard negative text by following p v 2 t ( V ) p^{v2t}(V) pv2t(V). (与当前视觉特征越接近的文本越可能被采样)
  2. We also sample one hard negative visual concept for each text.
  3. put the pairs as inputs for the fusion module, and then we use xcls, the output [CLS] embedding of the fusion module, to predict the matching probability p m a t c h p^{match} pmatch , and the loss is:

3.3 masked language modeling loss (MLM)

3.4 bbox loss

相关推荐
Jamence5 小时前
多模态大语言模型arxiv论文略读(118)
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
zsq15 小时前
【论文阅读笔记】HaDes幻觉检测benchmark
论文阅读·笔记·nlp·大语言模型幻觉
*Lisen15 小时前
论文笔记 -《MegaBlocks- Efficient Sparse Training with Mixture-of-Experts》
论文阅读
@Mr_LiuYang15 小时前
Delivering Arbitrary-Modal Semantic Segmentation(CVPR2023)任意模态语义分割论文阅读
论文阅读·多模态融合·跨模态分割·deliver数据集·cmnext模型·并行池化混合器(ppx)·自查询中心(sq-hub)
*Lisen15 小时前
论文笔记 - 《Implementing block-sparse matrix multiplication kernels using Triton》
论文阅读
有Li18 小时前
分割任意组织:用于医学图像分割的单样本参考引导免训练自动点提示方法|文献速递-深度学习医疗AI最新文献
论文阅读·深度学习·计算机视觉
Jamence1 天前
多模态大语言模型arxiv论文略读(119)
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
LuH11241 天前
【论文阅读笔记】高光反射实时渲染新突破:3D Gaussian Splatting with Deferred Reflection 技术解析
论文阅读·笔记·3d
王上上1 天前
【论文阅读32】预期寿命预测(2024)
论文阅读