DeCLIP 论文阅读

DeCLIP:supervision exists everywhere:a data efficient contrastive language-image pre-training paradigm

贡献:

  1. 论文是为了充分利用单模态和多模态,充分利用单模态特征用自监督(SIMSAM和MLM),多模态用图像文本对比学习实现;

  2. 一个图片的文本描述大部分都是集中在局部区域,作者使用RRC得到一个图像的局部区域进行实现;

  3. 一个图片有多种描述方式,提出用最近邻文本检索得到更多文本监督。(i.e.,对图像的文本描述1的特征向量在队列库中求余弦相似性得到最相似的描述2)

在SLIP基础上新增一个文本域的自监督,即该论文使用图片自监督+文本自监督+两倍图像-三倍文本对的对比学习。

模型

  • 图像自监督框架:SimSam
  • 文本自监督框架:MLM,每个句子中随机选择15%的单词,然后,80%的时间用【mask】替换单词,用10%的时间用随机token替换单词,用10%的时间不改变单词。最后得到语言模型对应的token域原始token进行交叉熵loss。
  • 图像-文本模态:原始的 CLIP 不使用文本增强,仅使用随机方形裁剪图像增强,因此需要大量数据。deCLIP使用随机数据增强,相比于原始CLIP,该论文监督信息更多。
  • 在嵌入空间中(具体来说是64K大小的队列)使用了Nearest-Neighbor 获得相似性的文本信息 。即,论文维护一个队列,在嵌入空间中使用最近邻检索得到一个最相似的文本描述。(隐式存在一对多,提供更好的监督信号,BLIP)

图片里灰色是原本的对比学习,绿的是自监督,橙色也是对比学习,蓝色是Nearest-Neighbor Supervision获得的最相似的文本和两个图片进行对比学习

总损失函数:

ref

https://zhuanlan.zhihu.com/p/585778761

相关推荐
c0d1ng5 小时前
二月第二周周报(论文阅读)
论文阅读
DuHz5 小时前
通过超宽带信号估计位置——论文精读
论文阅读·人工智能·机器学习·自动驾驶·汽车
Biomamba生信基地6 小时前
《Science Advances》11例样本图谱文章,空间转录组揭示特发性肺纤维化病理特征
论文阅读·空间转录组分析
觉醒大王2 天前
哪些文章会被我拒稿?
论文阅读·笔记·深度学习·考研·自然语言处理·html·学习方法
觉醒大王2 天前
强女思维:着急,是贪欲外显的相。
java·论文阅读·笔记·深度学习·学习·自然语言处理·学习方法
张较瘦_2 天前
[论文阅读] AI | 用机器学习给深度学习库“体检”:大幅提升测试效率的新思路
论文阅读·人工智能·机器学习
m0_650108243 天前
IntNet:面向协同自动驾驶的通信驱动多智能体强化学习框架
论文阅读·marl·多智能体系统·网联自动驾驶·意图共享·自适应通讯·端到端协同
m0_650108243 天前
Raw2Drive:基于对齐世界模型的端到端自动驾驶强化学习方案
论文阅读·机器人·强化学习·端到端自动驾驶·双流架构·引导机制·mbrl自动驾驶
快降重科研小助手3 天前
前瞻与规范:AIGC降重API的技术演进与负责任使用
论文阅读·aigc·ai写作·降重·降ai·快降重
源于花海4 天前
IEEE TIE期刊论文学习——基于元学习与小样本重训练的锂离子电池健康状态估计方法
论文阅读·元学习·电池健康管理·并行网络·小样本重训练