Multitask Vision-Language Prompt Tuning

本文是LLM系列文章,针对《Multitask Vision-Language Prompt Tuning》的翻译。

多任务视觉语言提示调整

  • 摘要
  • [1 引言](#1 引言)
  • [2 相关工作](#2 相关工作)
  • [3 方法](#3 方法)
  • [4 实验](#4 实验)
  • [5 讨论](#5 讨论)
  • [6 结论](#6 结论)

摘要

提示调整以任务特定的学习提示向量为条件,已成为一种数据高效和参数高效的方法,用于将大型预训练视觉语言模型适应多个下游任务。然而,现有的方法通常考虑从头开始独立地为每个任务学习提示向量,从而无法在不同的视觉语言任务中利用丰富的可共享知识。在本文中,我们提出了多任务视觉语言提示调整(MVLPT),它将跨任务知识纳入视觉语言模型的提示调整中。具体而言,(i)我们证明了从多个源任务学习单个可迁移提示以初始化每个目标任务的提示的有效性;(ii)我们表明,许多目标任务可以通过共享提示向量而相互受益,因此可以通过多任务提示调整来联合学习。我们使用三种有代表性的提示调整方法对所提出的MVLPT进行了基准测试,即文本提示调整、视觉提示调整和统一视觉语言提示调整。在20个视觉任务中的结果表明,所提出的方法优于所有单任务基线提示调整方法,在小样本ELEVATER基准和跨任务泛化基准上树立了最先进的水平。为了了解跨任务知识在哪里最有效,我们还对任务可迁移性进行了大规模研究,对每种提示调整方法的400个组合中的20个视觉任务进行了研究。研究表明,对于每种提示调整方法,性能最好的MVLPT都倾向于不同的任务组合,并且许多任务可以相互受益,这取决于它们的视觉相似性和标签相似性。代码可在https://github.com/sIncerass/MVLPT找到。

1 引言

2 相关工作

3 方法

4 实验

5 讨论

6 结论

在本文中,我们提出了多任务视觉语言提示调整(MVLPT)。我们证明,与基线提示学习方法(CoOp、VPT和UPT)相比,MVLPT表现出较强的可推广性和小样本学习性能。性能最高的MVLPT在ELEVATER基准上树立了最先进的新性能。我们还研究了20项视觉任务的任务可迁移性,并为多任务提示学习提供了指导。我们展示了多任务视觉语言提示调整利用了跨任务知识,并有助于在ELEVATER基准上提高单个任务的性能。我们希望我们的研究将启发未来在视觉语言领域进行大规模多任务学习的研究,以及如何更有效地适应各种下游任务。

相关推荐
GoGeekBaird5 分钟前
GoHumanLoopHub开源上线,开启Agent人际协作新方式
人工智能·后端·github
Jinkxs14 分钟前
测试工程师的AI转型指南:从工具使用到测试策略重构
人工智能·重构
别惹CC26 分钟前
Spring AI 进阶之路01:三步将 AI 整合进 Spring Boot
人工智能·spring boot·spring
stbomei2 小时前
当 AI 开始 “理解” 情感:情感计算技术正在改写人机交互规则
人工智能·人机交互
Moshow郑锴7 小时前
人工智能中的(特征选择)数据过滤方法和包裹方法
人工智能
TY-20258 小时前
【CV 目标检测】Fast RCNN模型①——与R-CNN区别
人工智能·目标检测·目标跟踪·cnn
CareyWYR9 小时前
苹果芯片Mac使用Docker部署MinerU api服务
人工智能
失散139 小时前
自然语言处理——02 文本预处理(下)
人工智能·自然语言处理
mit6.82410 小时前
[1Prompt1Story] 滑动窗口机制 | 图像生成管线 | VAE变分自编码器 | UNet去噪神经网络
人工智能·python
sinat_2869451910 小时前
AI应用安全 - Prompt注入攻击
人工智能·安全·prompt