【提示学习论文】PMF：Efficient Multimodal Fusion via Interactive Prompting论文原理

Efficient Multimodal Fusion via Interactive Prompting（CVPR2023）

基于交互式提示的高效多模态融合方法
减少针对下游任务微调模型的计算成本
提出模块化多模态融合架构，促进不同模态之间的相互交互
将普通提示分为三种类型，仅在单模态transformer深层添加提示向量，显著减少训练内存的使用

1 Introduction

提示微调方法采用顺序模块化结构，预训练图像transformer模型后接着语言transformer模型，因此跨模态学习的两个主要问题：单向路径学习和模型层数显著增加。
减少了需要更新的参数数量，但没有减少训练期间的内存使用量

提出Prompt-base Multimodal Fusion method（PMF），具有高内存效率

具有高灵活性，促进不同模态之间的双向交互，语言模型与图像模型以并行方式构建，不同模态的token可以通过类似交叉注意力的操作来学习相互交互
使用三种类型的交互式提示（查询提示、查询上下文提示、融合上下文提示）来动态学习，查询提示和查询上下文提示可以看作一对问题和答案，提取两种模态之间交换所需的信息。融合上下文提示会为传递的答案提供上下文，以促进融合
考虑到计算反向传播提示的梯度非常消耗内存，本文仅在单模态transformer的深层添加提示

3 Prompt-based Multimodal Fusion基于提示的多模态融合方法

PMF三部分：

视觉和语言的单模态Transformer
基本特征提取
基于交互式提示，将两个单模态 Transformer 层集成为多模态 Transformer 层

3.1 单模态Transformer

图像和文本最终都会得到一个连续的嵌入序列，将特殊的标记CLS与其拼接，输入Transformer中。对于每个transformer层，输入经过包括多头自注意力、层归一化、多层感知器在内的模块，最后通过残差连接添加到原始输入中。

3.2 单模态基部特征提取

图像和文本输入首先分别被处理并输入到单模态transformer层中提取基本特征。在此阶段，每个编码器的工作方式与在单模态任务中的工作方式完全相同。

每个编码器的基本特征提取：

Lf：融合层起始层数，越小越早融合
Θ：预训练参数

3.3 多模态融合层-交互式提示

每个融合层由查询阶段、融合阶段组成，提取的单模态基本特征通过多个多模态融合层进行融合。

Querying查询阶段

输入序列为原图像序列z+查询上下文提示qcp+查询提示qp

输入translayer，得到输出

将查询提示qp进行非线性映射
Fusion融合阶段

输入原文本序列+融合上下文提示fcp+查询提示qp非线性映射后的yqp

输入经过FusionLayer，得到输出

4 Experiments

4.1 数据集

UPMC Food-101：包含101种食物的图像和文本描述

MM-IMDB：包含电影情节概要、电影海报、类型

SNLI-VE：多模态分类数据集

4.2 现有方法和baselines

微调单模态模型：例如BERT和ViT，取ViT和BERT中最后一层的CLS标记的输出表示，并将其输入到一个线性分类器中进行分类。
VPT和P-BERT：每个变换器层的输入序列都与一个长度为10的提示向量连接起来。在训练过程中，仅更新连接的提示向量和最终线性分类器。
LateConcat和Linear：强基线方法，即将ViT和BERT的CLS标记的输出特征连接起来，然后将连接的特征输入到一个线性分类器中。
MMBT和MBT：作者重新实现了MMBT（Multimodal Multi-BERT）和MBT（Multimodal BERT）方法，使用vit-base模型作为视觉编码器和bert-base模型作为文本编码器，以进行公平和受控比较。
PromptFuse和BlindPrompt：在单模态预训练模型上利用提示进行多模态融合，提示的长度设置为20。

4.3 实现细节

预训练的骨干网络和初始化：作者在所有实验中都使用了ImageNet-21k预训练的vit-base模型 作为视觉编码器，以及bert-base-uncased模型作为语言编码器。所有预训练的检查点均来自于huggingface。所有提示向量都通过高斯分布进行初始化，均值为0，标准差为0.02。
网络训练：作者在所有实验中使用了SGD优化器，动量设置为0.9，权重衰减设置为1e-4。对于SNLI-VE数据集，批量大小设置为64，对于UPMC Food-101和MM-IMDB数据集，批量大小设置为32。在所有实验中应用了交叉熵损失函数，并且对于UPMC Food-101和MM-IMDB数据集，类标签按其逆频率加权。更多细节可以在补充材料中找到。

4.4 结果

表2中，可以看到，PMF的可学习参数少，可节省高达66%的训练内存使用量

4.5 消融实验

4.5.1 提示和映射组件消融

验证三种提示和非线性映射函数的有效性，

第一行是在PMF中没有任何组件的情况
前三行是仅提示两个变换器的顶层，不能实现多模态融合，相反会干扰两个变换器的特征空间，最终影响性能。
最后四行的比较表明，将提示解耦成三个具有不同学习目标的独立模块会带来性能提升。
第五行和第六行的比较显示，扩展的QP无法取代QCP。因为只有QP标记的输出被融合到另一个模态，而QCP标记的输出被舍弃，用更长的QP代替QCP不仅增加了计算量，因为融合阶段的序列更长，而且还会导致性能下降。
PMF中引入的每个模块都对多模态融合的质量有所贡献。任何四个模块中的一个缺失都会导致不同程度的性能下降。

4.5.2 融合层数

图4，对不同融合层Lf对融合性能和内存效率带来的影响进行了调查。从图中可以看出，随着融合开始较晚，训练内存使用量不断减少。融合模型的性能在Lf ≤ 10时相对一致。因此，从经验上看，仅在深层（10 < l < L）上添加提示在性能和内存效率之间进行权衡是更好的选择。

4.5.3 提示长度

图5，对提示长度进行的消融研究，其中三种提示的长度设置为相同（即Mqp = Mqcp = Mfcp）

当M ≤ 16时，性能随着提示长度的增加而增加
但当提示过长时（M=32），性能下降。
需要强调的是，随着提示长度从1增加到16，训练内存使用量仅增加了约1GB，这意味着训练内存使用量的主要因素是融合层Lf，而不是提示长度。

4.6 模块化和灵活性

PMF的高度模块化，当有更好的单模态变换器时替换它们是非常简单。由于每个单模态变换器的总变换器层数（Limg和Ltxt）现在不同，两个模态的单模态基础特征现在需要不同的层进行提取，而融合保留的剩余层数量保持不变。不同隐藏维度d之间的差异由非线性映射函数f自动处理。表4中的结果清楚地证明了PMF可以通过更大的单模态变换器得到增强，而训练内存使用量的增加非常有限。

4.7 PMF with NAS

利用自动搜索算法（NAS）来优化PMF模型中的超参数。虽然PMF在没有进行详尽的超参数调优的情况下已经表现良好，但针对每个不同的任务和数据分布进行特定设置仍然是可取的。
通过AutoFormer进行了自动融合结构的搜索。搜索空间和演化搜索的详细描述可以在补充材料中找到。表5展示了在三个数据集上应用NAS的PMF的性能。随着训练内存使用量的增加，PMF-NAS比具有相同视觉和语言编码器的常规PMF取得了更好的结果，大大减轻了找到优选融合结构的工作量。

5 Conclusion

结论：我们提出了一种新型的模块化多模态融合框架，展现了高度的灵活性，并促进了不同模态之间的双向交互，即PMF。PMF利用三种类型的交互式提示，以动态学习多模态学习的不同目标。通过仅在使用的单模态变换器的深层上添加提示，PMF可以显著减少反向传播中梯度计算的内存使用。通过广泛的实验证明，PMF具有相当高的内存效率，同时能够与现有的微调基线相媲美。