【论文笔记】Flamingo: a Visual Language Model for Few-Shot Learning

🍎个人主页:小嗷犬的个人主页

🍊个人网站:小嗷犬的技术小站

🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题 : Flamingo: a Visual Language Model for Few-Shot Learning
作者 : Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katherine Millican, Malcolm Reynolds, Roman Ring, Eliza Rutherford, Serkan Cabi, Tengda Han, Zhitao Gong, Sina Samangooei, Marianne Monteiro, Jacob L Menick, Sebastian Borgeaud, Andy Brock, Aida Nematzadeh, Sahand Sharifzadeh, Mikołaj Bińkowski, Ricardo Barreira, Oriol Vinyals, Andrew Zisserman, Karén Simonyan
发表 : Advances in Neural Information Processing Systems 35 (NeurIPS 2022)
arxiv : https://arxiv.org/abs/2204.14198

摘要

构建仅使用少量标注示例即可快速适应新任务的模型,是跨模态机器学习研究的一个开放挑战。

我们介绍了Flamingo,这是一系列具有这种能力的视觉语言模型(VLM)。

我们提出了关键架构创新:

  1. 连接强大的预训练视觉和语言模型。
  2. 处理任意交织的视觉和文本数据序列。
  3. 无缝地摄入图像或视频作为输入。

得益于其灵活性,Flamingo模型可以在包含任意交织文本和图像的大规模多模态网络语料库上进行训练,这对于赋予它们上下文少样本学习能力至关重要。

我们对我们的模型进行了彻底的评估,探索并测量了它们快速适应各种图像和视频任务的能力。

这些任务包括开放性任务,如视觉问答,其中模型被提示一个问题,它必须回答;字幕任务,评估描述场景或事件的能力;以及封闭性任务,如多项选择视觉问答。对于这个范围内的任何任务,单个Flamingo模型可以通过提示特定任务的示例,仅通过少样本学习实现新的最先进水平。

在众多基准测试中,Flamingo优于在数以千计的任务特定数据上微调的模型。

主要贡献

  1. 引入了Flamingo系列VLM,它可以从少量输入/输出示例中执行各种多模态任务(如标题生成、视觉对话或视觉问答)。得益于架构创新,Flamingo模型可以高效地接受任意交织的视觉数据和文本作为输入,并以开放式生成文本。
  2. 定量评估了Flamingo模型如何通过少样本学习适应各种任务。
  3. Flamingo在16个多模态语言和图像/视频理解任务上达到了少样本学习的SOTA水平。

概览图表

方法

整体架构

  • Visual Encoder: NFNet-F6,由像素图像得到视觉特征。
  • Perceiver Resampler: 类似 Perceiver 和 DETR,转换视觉特征到固定数量的视觉输出。

GATED XATTN-DENSE layers

在各个 LM block 之间插入 GATED XATTN-DENSE 来获取视觉特征。

Multi-visual input support: per-image/video attention masking

通过 Mask 限制每个文本 token 能够看到的视觉 token。模型仅能关注到之前的一个视觉 token,而非前文出现过的所有视觉 token。这一限制比允许模型直接注意所有视觉 token 效果更好。

训练

使用三类数据进行训练:

  1. M3W,交错图像和文本数据。
  2. ALIGN,图像文本对数据。
  3. LTIP,视频文本对数据。

实验

主实验

Flamingo模型在广泛的图像(I)和视频(V)理解任务中,通过少样本学习达到了SOTA水平,显著优于之前最佳的无样本和少样本方法,只需四个示例即可。更重要的是,仅使用32个示例且未调整任何模型权重,Flamingo在七个任务上优于当前最佳方法------这些方法是在数千个标注示例上微调的。

作者在Flamingo使用少量样本学习未能达到SOTA的九项任务上对Flamingo进行了微调。在其中的五项任务上,Flamingo创造了新的SOTA,超越了使用诸如模型集成或特定领域指标优化(例如CIDEr优化)等技巧的方法(标记为†)。

消融实验

  1. 训练数据混合的重要性。(i)对训练数据进行了消融实验,特别是对M3W图文交织数据的有无进行了消融,发现图文交织数据能提供大约17%的提升。
  2. 视觉训练的冻结LM。(iii)不使用tanh gating会导致约4.2%的性能下降,且会使训练不稳定。(iv)使用GATED XATTN-DENSE比使用原始的Transformer交叉注意力效果更好。
  3. 计算/内存与性能权衡。(v)添加新的GATED XATTN-DENSE块的频率越高,模型效果越好,但模型的可训练参数数量和时间复杂度会显著增加。每四个块插入一次可以加速训练66%,同时整体分数仅下降1.9%。(vi)MLP和原始Transformer在性能和速度上都不如Perceiver。
  4. 视觉编码器。(vii)NFNet-F6的效果比CLIP ViT-L/14好5.8%,比NFNet-F0好8.0%。
  5. 冻结LM组件可防止灾难性遗忘。(viii)训练随机初始化的LM层,性能会下降12.9%。微调预训练LM也会导致性能下降8.0%。这表明模型出现了"灾难性遗忘",即模型在训练新目标时逐渐忘记了其预训练。在本文的设置中,冻结语言模型是比在混合中使用预训练数据集(MassiveText)进行训练更好的替代方案。
相关推荐
shangjian0071 小时前
AI大模型-评价指标-相关术语
人工智能·算法
江河地笑2 小时前
opencv、cmake、vcpkg
人工智能·opencv·计算机视觉
海边夕阳20062 小时前
【每天一个AI小知识】:什么是卷积神经网络?
人工智能·经验分享·深度学习·神经网络·机器学习·cnn
一只会写代码的猫3 小时前
可持续发展中的绿色科技:推动未来的环保创新
大数据·人工智能
胡萝卜3.03 小时前
掌握C++ map:高效键值对操作指南
开发语言·数据结构·c++·人工智能·map
松岛雾奈.2304 小时前
机器学习--PCA降维算法
人工智能·算法·机器学习
5***79004 小时前
机器学习社区机器学习社区:推动技术进步与创新的引擎
人工智能·机器学习
物联网软硬件开发-轨物科技4 小时前
【轨物交流】海盐县组织部调研轨物科技 深化产学研用协同创新
人工智能·科技
Olafur_zbj4 小时前
【AI】矩阵、向量与乘法
人工智能·线性代数·矩阵
kk哥88994 小时前
印刷 / 表单处理专属!Acrobat 2025 AI 加持 PDF 编辑 + 批量处理效率翻倍,安装教程
人工智能