【提示学习论文】PMF:Efficient Multimodal Fusion via Interactive Prompting论文原理

Efficient Multimodal Fusion via Interactive Prompting(CVPR2023)

  • 基于交互式提示的高效多模态融合方法
  • 减少针对下游任务微调模型的计算成本
  • 提出模块化多模态融合架构,促进不同模态之间的相互交互
  • 将普通提示分为三种类型,仅在单模态transformer深层添加提示向量,显著减少训练内存的使用

1 Introduction

  • 提示微调方法采用顺序模块化结构,预训练图像transformer模型后接着语言transformer模型,因此跨模态学习的两个主要问题:单向路径学习和模型层数显著增加。
  • 减少了需要更新的参数数量,但没有减少训练期间的内存使用量

提出Prompt-base Multimodal Fusion method(PMF),具有高内存效率

  • 具有高灵活性,促进不同模态之间的双向交互,语言模型与图像模型以并行方式构建,不同模态的token可以通过类似交叉注意力的操作来学习相互交互
  • 使用三种类型的交互式提示(查询提示、查询上下文提示、融合上下文提示)来动态学习,查询提示和查询上下文提示可以看作一对问题和答案,提取两种模态之间交换所需的信息。融合上下文提示会为传递的答案提供上下文,以促进融合
  • 考虑到计算反向传播提示的梯度非常消耗内存,本文仅在单模态transformer的深层添加提示

3 Prompt-based Multimodal Fusion基于提示的多模态融合方法

PMF三部分:

  • 视觉和语言的单模态Transformer
  • 基本特征提取
  • 基于交互式提示,将两个单模态 Transformer 层集成为多模态 Transformer 层

3.1 单模态Transformer

图像和文本最终都会得到一个连续的嵌入序列,将特殊的标记CLS与其拼接,输入Transformer中。对于每个transformer层,输入经过包括多头自注意力、层归一化、多层感知器在内的模块,最后通过残差连接添加到原始输入中。

3.2 单模态基部特征提取

图像和文本输入首先分别被处理并输入到单模态transformer层中提取基本特征。在此阶段,每个编码器的工作方式与在单模态任务中的工作方式完全相同。

每个编码器的基本特征提取:

  • Lf:融合层起始层数,越小越早融合
  • Θ:预训练参数

3.3 多模态融合层-交互式提示

每个融合层由查询阶段、融合阶段组成,提取的单模态基本特征通过多个多模态融合层进行融合。

  • Querying查询阶段

    输入序列为原图像序列z+查询上下文提示qcp+查询提示qp

    输入translayer,得到输出

    将查询提示qp进行非线性映射

  • Fusion融合阶段

输入原文本序列+融合上下文提示fcp+查询提示qp非线性映射后的yqp

输入经过FusionLayer,得到输出

4 Experiments

4.1 数据集

UPMC Food-101:包含101种食物的图像和文本描述

MM-IMDB:包含电影情节概要、电影海报、类型

SNLI-VE:多模态分类数据集

4.2 现有方法和baselines

  • 微调单模态模型:例如BERT和ViT,取ViT和BERT中最后一层的CLS标记的输出表示,并将其输入到一个线性分类器中进行分类。
  • VPT和P-BERT:每个变换器层的输入序列都与一个长度为10的提示向量连接起来。在训练过程中,仅更新连接的提示向量和最终线性分类器。
  • LateConcat和Linear:强基线方法,即将ViT和BERT的CLS标记的输出特征连接起来,然后将连接的特征输入到一个线性分类器中。
  • MMBT和MBT:作者重新实现了MMBT(Multimodal Multi-BERT)和MBT(Multimodal BERT)方法,使用vit-base模型作为视觉编码器和bert-base模型作为文本编码器,以进行公平和受控比较。
  • PromptFuse和BlindPrompt:在单模态预训练模型上利用提示进行多模态融合,提示的长度设置为20。

4.3 实现细节

  • 预训练的骨干网络和初始化:作者在所有实验中都使用了ImageNet-21k预训练的vit-base模型 作为视觉编码器,以及bert-base-uncased模型作为语言编码器。所有预训练的检查点均来自于huggingface。所有提示向量都通过高斯分布进行初始化,均值为0,标准差为0.02。
  • 网络训练:作者在所有实验中使用了SGD优化器,动量设置为0.9,权重衰减设置为1e-4。对于SNLI-VE数据集,批量大小设置为64,对于UPMC Food-101和MM-IMDB数据集,批量大小设置为32。在所有实验中应用了交叉熵损失函数,并且对于UPMC Food-101和MM-IMDB数据集,类标签按其逆频率加权。更多细节可以在补充材料中找到。

4.4 结果

表2中,可以看到,PMF的可学习参数少,可节省高达66%的训练内存使用量

4.5 消融实验

4.5.1 提示和映射组件消融

验证三种提示和非线性映射函数的有效性,

  • 第一行是在PMF中没有任何组件的情况
  • 前三行是仅提示两个变换器的顶层,不能实现多模态融合,相反会干扰两个变换器的特征空间,最终影响性能。
  • 最后四行的比较表明,将提示解耦成三个具有不同学习目标的独立模块会带来性能提升。
  • 第五行和第六行的比较显示,扩展的QP无法取代QCP。因为只有QP标记的输出被融合到另一个模态,而QCP标记的输出被舍弃,用更长的QP代替QCP不仅增加了计算量,因为融合阶段的序列更长,而且还会导致性能下降。
  • PMF中引入的每个模块都对多模态融合的质量有所贡献。任何四个模块中的一个缺失都会导致不同程度的性能下降。

4.5.2 融合层数

图4,对不同融合层Lf对融合性能和内存效率带来的影响进行了调查。从图中可以看出,随着融合开始较晚,训练内存使用量不断减少。融合模型的性能在Lf ≤ 10时相对一致。因此,从经验上看,仅在深层(10 < l < L)上添加提示在性能和内存效率之间进行权衡是更好的选择。

4.5.3 提示长度

图5,对提示长度进行的消融研究,其中三种提示的长度设置为相同(即Mqp = Mqcp = Mfcp)

  • 当M ≤ 16时,性能随着提示长度的增加而增加
  • 但当提示过长时(M=32),性能下降。
  • 需要强调的是,随着提示长度从1增加到16,训练内存使用量仅增加了约1GB,这意味着训练内存使用量的主要因素是融合层Lf,而不是提示长度。

4.6 模块化和灵活性

PMF的高度模块化,当有更好的单模态变换器时替换它们是非常简单。由于每个单模态变换器的总变换器层数(Limg和Ltxt)现在不同,两个模态的单模态基础特征现在需要不同的层进行提取,而融合保留的剩余层数量保持不变。不同隐藏维度d之间的差异由非线性映射函数f自动处理。表4中的结果清楚地证明了PMF可以通过更大的单模态变换器得到增强,而训练内存使用量的增加非常有限。

4.7 PMF with NAS

  • 利用自动搜索算法(NAS)来优化PMF模型中的超参数。虽然PMF在没有进行详尽的超参数调优的情况下已经表现良好,但针对每个不同的任务和数据分布进行特定设置仍然是可取的。
  • 通过AutoFormer进行了自动融合结构的搜索。搜索空间和演化搜索的详细描述可以在补充材料中找到。表5展示了在三个数据集上应用NAS的PMF的性能。随着训练内存使用量的增加,PMF-NAS比具有相同视觉和语言编码器的常规PMF取得了更好的结果,大大减轻了找到优选融合结构的工作量。

5 Conclusion

结论:我们提出了一种新型的模块化多模态融合框架,展现了高度的灵活性,并促进了不同模态之间的双向交互,即PMF。PMF利用三种类型的交互式提示,以动态学习多模态学习的不同目标。通过仅在使用的单模态变换器的深层上添加提示,PMF可以显著减少反向传播中梯度计算的内存使用。通过广泛的实验证明,PMF具有相当高的内存效率,同时能够与现有的微调基线相媲美。

相关推荐
尘似鹤8 分钟前
微信小程序学习(六)--多媒体操作
学习·微信小程序·小程序
新智元14 分钟前
Ilya震撼发声!OpenAI前主管亲证:AGI已觉醒,人类还在装睡
人工智能·openai
朱昆鹏23 分钟前
如何通过sessionKey 登录 Claude
前端·javascript·人工智能
汉堡go29 分钟前
1、机器学习与深度学习
人工智能·深度学习·机器学习
UpYoung!1 小时前
无广技术贴!【PDF编辑器】Solid Converter PDF保姆级图文下载安装指南——实用推荐之PDF编辑软件
学习·数学建模·pdf·编辑器·运维开发·个人开发
只是懒得想了1 小时前
使用 Gensim 进行主题建模(LDA)与词向量训练(Word2Vec)的完整指南
人工智能·自然语言处理·nlp·word2vec·gensim
达瓦里氏1231 小时前
重排反应是什么?从分子变化到四大关键特征解析
数据库·学习·化学
johnny2331 小时前
OpenAI系列模型介绍、API使用
人工智能
KKKlucifer1 小时前
生成式 AI 冲击下,网络安全如何破局?
网络·人工智能·web安全
学好statistics和DS1 小时前
【CV】泊松图像融合
算法·计算机视觉