X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks论文笔记

|--------------------------------------------------------------------------------------------------------------|
| Title:X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks |

|----------------------------------------------|
| Code |

1. Motivation

  • CLIP这一类方法只能进行图片级别的视觉和文本对齐;
  • 也有一些方法利用预训练的目标检测器进行目标级别的视觉和文本对齐,但是只能编码目标内部的特征,无法有效表达多目标上下文关联;
  • 本文致力于进行多粒度(objects, regions, and images)的视觉文本对齐预训练任务;

2. 模型结构

3. 损失函数

3.1 contrastive loss

  1. 文本特征和视觉特征之间的相似性定义:
  1. vision-to-text similarity
  1. text-to-vision similarity

  2. GT:one-hot

  3. cross-entropy loss

3.2 matching loss

  1. For each visual concept in a mini-batch, we sample an in-batch hard negative text by following p v 2 t ( V ) p^{v2t}(V) pv2t(V). (与当前视觉特征越接近的文本越可能被采样)
  2. We also sample one hard negative visual concept for each text.
  3. put the pairs as inputs for the fusion module, and then we use xcls, the output [CLS] embedding of the fusion module, to predict the matching probability p m a t c h p^{match} pmatch , and the loss is:

3.3 masked language modeling loss (MLM)

3.4 bbox loss

相关推荐
DuHz8 小时前
超宽带脉冲无线电(Ultra Wideband Impulse Radio, UWB)简介
论文阅读·算法·汽车·信息与通信·信号处理
c0d1ng19 小时前
二月第二周周报(论文阅读)
论文阅读
DuHz19 小时前
通过超宽带信号估计位置——论文精读
论文阅读·人工智能·机器学习·自动驾驶·汽车
Biomamba生信基地19 小时前
《Science Advances》11例样本图谱文章,空间转录组揭示特发性肺纤维化病理特征
论文阅读·空间转录组分析
觉醒大王3 天前
哪些文章会被我拒稿?
论文阅读·笔记·深度学习·考研·自然语言处理·html·学习方法
觉醒大王3 天前
强女思维:着急,是贪欲外显的相。
java·论文阅读·笔记·深度学习·学习·自然语言处理·学习方法
张较瘦_3 天前
[论文阅读] AI | 用机器学习给深度学习库“体检”:大幅提升测试效率的新思路
论文阅读·人工智能·机器学习
m0_650108244 天前
IntNet:面向协同自动驾驶的通信驱动多智能体强化学习框架
论文阅读·marl·多智能体系统·网联自动驾驶·意图共享·自适应通讯·端到端协同
m0_650108244 天前
Raw2Drive:基于对齐世界模型的端到端自动驾驶强化学习方案
论文阅读·机器人·强化学习·端到端自动驾驶·双流架构·引导机制·mbrl自动驾驶
快降重科研小助手4 天前
前瞻与规范:AIGC降重API的技术演进与负责任使用
论文阅读·aigc·ai写作·降重·降ai·快降重