X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks论文笔记

|--------------------------------------------------------------------------------------------------------------|
| Title:X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks |

|----------------------------------------------|
| Code |

1. Motivation

  • CLIP这一类方法只能进行图片级别的视觉和文本对齐;
  • 也有一些方法利用预训练的目标检测器进行目标级别的视觉和文本对齐,但是只能编码目标内部的特征,无法有效表达多目标上下文关联;
  • 本文致力于进行多粒度(objects, regions, and images)的视觉文本对齐预训练任务;

2. 模型结构

3. 损失函数

3.1 contrastive loss

  1. 文本特征和视觉特征之间的相似性定义:
  1. vision-to-text similarity
  1. text-to-vision similarity

  2. GT:one-hot

  3. cross-entropy loss

3.2 matching loss

  1. For each visual concept in a mini-batch, we sample an in-batch hard negative text by following p v 2 t ( V ) p^{v2t}(V) pv2t(V). (与当前视觉特征越接近的文本越可能被采样)
  2. We also sample one hard negative visual concept for each text.
  3. put the pairs as inputs for the fusion module, and then we use xcls, the output [CLS] embedding of the fusion module, to predict the matching probability p m a t c h p^{match} pmatch , and the loss is:

3.3 masked language modeling loss (MLM)

3.4 bbox loss

相关推荐
秋雨qy17 小时前
VLA论文阅读2
论文阅读
网安INF19 小时前
【论文阅读】-《SparseFool: a few pixels make a big difference》
论文阅读·人工智能·深度学习·网络安全·黑盒攻击
张较瘦_20 小时前
[论文阅读] AI+教学 | 编程入门课的AI助手革命?ChatGPT的4大核心影响全解析
论文阅读·人工智能·chatgpt
网安INF20 小时前
【论文阅读】-《Sparse Adversarial Attack via Perturbation Factorization》
论文阅读·人工智能·计算机视觉·网络安全·黑盒攻击
张较瘦_1 天前
[论文阅读] AI+软件工程(DeBug)| 从11%到53%!双LLM驱动的工业级代码修复方案,Google数据集验证有效
论文阅读·人工智能·软件工程
菜鸟‍2 天前
【论文笔记】2025年图像处理顶会论文
论文阅读
张较瘦_2 天前
[论文阅读] AI+软件工程 | 开发者 AI 需求新指南:任务感知视角下的负责任 AI 实证研究
论文阅读·人工智能·软件工程
红苕稀饭6662 天前
M-LLM Based Video Frame Selection for Efficient Video Understanding论文阅读
论文阅读
森诺Alyson3 天前
前沿技术借鉴研讨-2025.9.23 (数据不平衡)
论文阅读·人工智能·经验分享·深度学习·论文笔记
Chandler_Song3 天前
【读书笔记】《苏东坡》
论文阅读