GLIP,FLIP论文阅读

Scaling Language-Image Pre-training via Masking(FLIP,2023)👍

贡献:

1.图像端引入MAE的随机MASK,image encoder只处理未mask的patches(和之前的MAE方法一致),减少了输入序列长度加速训练,减少memory开销。

text端没引入mask是因为text信息比较dense(图片信息比较稀疏),mask掉效果反而不好,之后是选择mask掉text

padding的地方提升了精度。

2.做了三个方面的scale:说明model和data的scale还是很重要的,不同数据集相同大小也会对模型造成影响

  • model scaling:vit变大,效果很直观的好
  • data scaling:将预训练数据集从LAION-400M扩展到更大的数据集LAION-2B(固定训练过程采样的样本总量)
  • schedule scaling :增加训练过程的采样数据量(从12.8B->25.6B,即训练epochs从32增加至64


下图绿色划线:增大VIT有利于transfer learning,增加数据量有利于做zero shot

模型

Ablation study

(a)我觉得可能提升的一个因素是bz大了,负样本也多了,效果好,作者不做相同bz的实验

(d)说明了减少mask率微调几个epoch有有助于提升精度


GLIP:Grounded Language-Image Pre-training(2022)👍

模型:

Language-Aware Deep Fusion:

1.image encoder 和 text encoder 抽取图像和文本的特征

2.对抽取的特征进行cross attention ,获得更好的交互后的特征:

X-MHA:cross-modality multi-head attention module,类似cross attention ,qk算attn,各自的v分别算一次

上图(B)是在(A)的基础上添加了deep fusion,涨点还是很明显的,增加数据量涨点也很明显

相关推荐
DuHz3 小时前
超宽带脉冲无线电(Ultra Wideband Impulse Radio, UWB)简介
论文阅读·算法·汽车·信息与通信·信号处理
c0d1ng14 小时前
二月第二周周报(论文阅读)
论文阅读
DuHz14 小时前
通过超宽带信号估计位置——论文精读
论文阅读·人工智能·机器学习·自动驾驶·汽车
Biomamba生信基地14 小时前
《Science Advances》11例样本图谱文章,空间转录组揭示特发性肺纤维化病理特征
论文阅读·空间转录组分析
觉醒大王2 天前
哪些文章会被我拒稿?
论文阅读·笔记·深度学习·考研·自然语言处理·html·学习方法
觉醒大王3 天前
强女思维:着急,是贪欲外显的相。
java·论文阅读·笔记·深度学习·学习·自然语言处理·学习方法
张较瘦_3 天前
[论文阅读] AI | 用机器学习给深度学习库“体检”:大幅提升测试效率的新思路
论文阅读·人工智能·机器学习
m0_650108243 天前
IntNet:面向协同自动驾驶的通信驱动多智能体强化学习框架
论文阅读·marl·多智能体系统·网联自动驾驶·意图共享·自适应通讯·端到端协同
m0_650108244 天前
Raw2Drive:基于对齐世界模型的端到端自动驾驶强化学习方案
论文阅读·机器人·强化学习·端到端自动驾驶·双流架构·引导机制·mbrl自动驾驶
快降重科研小助手4 天前
前瞻与规范:AIGC降重API的技术演进与负责任使用
论文阅读·aigc·ai写作·降重·降ai·快降重