摘要

提示调整以任务特定的学习提示向量为条件，已成为一种数据高效和参数高效的方法，用于将大型预训练视觉语言模型适应多个下游任务。然而，现有的方法通常考虑从头开始独立地为每个任务学习提示向量，从而无法在不同的视觉语言任务中利用丰富的可共享知识。在本文中，我们提出了多任务视觉语言提示调整（MVLPT），它将跨任务知识纳入视觉语言模型的提示调整中。具体而言，（i）我们证明了从多个源任务学习单个可迁移提示以初始化每个目标任务的提示的有效性；（ii）我们表明，许多目标任务可以通过共享提示向量而相互受益，因此可以通过多任务提示调整来联合学习。我们使用三种有代表性的提示调整方法对所提出的MVLPT进行了基准测试，即文本提示调整、视觉提示调整和统一视觉语言提示调整。在20个视觉任务中的结果表明，所提出的方法优于所有单任务基线提示调整方法，在小样本ELEVATER基准和跨任务泛化基准上树立了最先进的水平。为了了解跨任务知识在哪里最有效，我们还对任务可迁移性进行了大规模研究，对每种提示调整方法的400个组合中的20个视觉任务进行了研究。研究表明，对于每种提示调整方法，性能最好的MVLPT都倾向于不同的任务组合，并且许多任务可以相互受益，这取决于它们的视觉相似性和标签相似性。代码可在https://github.com/sIncerass/MVLPT找到。

1 引言

2 相关工作

3 方法

4 实验

5 讨论

6 结论

在本文中，我们提出了多任务视觉语言提示调整（MVLPT）。我们证明，与基线提示学习方法（CoOp、VPT和UPT）相比，MVLPT表现出较强的可推广性和小样本学习性能。性能最高的MVLPT在ELEVATER基准上树立了最先进的新性能。我们还研究了20项视觉任务的任务可迁移性，并为多任务提示学习提供了指导。我们展示了多任务视觉语言提示调整利用了跨任务知识，并有助于在ELEVATER基准上提高单个任务的性能。我们希望我们的研究将启发未来在视觉语言领域进行大规模多任务学习的研究，以及如何更有效地适应各种下游任务。