Multitask Vision-Language Prompt Tuning

本文是LLM系列文章,针对《Multitask Vision-Language Prompt Tuning》的翻译。

多任务视觉语言提示调整

  • 摘要
  • [1 引言](#1 引言)
  • [2 相关工作](#2 相关工作)
  • [3 方法](#3 方法)
  • [4 实验](#4 实验)
  • [5 讨论](#5 讨论)
  • [6 结论](#6 结论)

摘要

提示调整以任务特定的学习提示向量为条件,已成为一种数据高效和参数高效的方法,用于将大型预训练视觉语言模型适应多个下游任务。然而,现有的方法通常考虑从头开始独立地为每个任务学习提示向量,从而无法在不同的视觉语言任务中利用丰富的可共享知识。在本文中,我们提出了多任务视觉语言提示调整(MVLPT),它将跨任务知识纳入视觉语言模型的提示调整中。具体而言,(i)我们证明了从多个源任务学习单个可迁移提示以初始化每个目标任务的提示的有效性;(ii)我们表明,许多目标任务可以通过共享提示向量而相互受益,因此可以通过多任务提示调整来联合学习。我们使用三种有代表性的提示调整方法对所提出的MVLPT进行了基准测试,即文本提示调整、视觉提示调整和统一视觉语言提示调整。在20个视觉任务中的结果表明,所提出的方法优于所有单任务基线提示调整方法,在小样本ELEVATER基准和跨任务泛化基准上树立了最先进的水平。为了了解跨任务知识在哪里最有效,我们还对任务可迁移性进行了大规模研究,对每种提示调整方法的400个组合中的20个视觉任务进行了研究。研究表明,对于每种提示调整方法,性能最好的MVLPT都倾向于不同的任务组合,并且许多任务可以相互受益,这取决于它们的视觉相似性和标签相似性。代码可在https://github.com/sIncerass/MVLPT找到。

1 引言

2 相关工作

3 方法

4 实验

5 讨论

6 结论

在本文中,我们提出了多任务视觉语言提示调整(MVLPT)。我们证明,与基线提示学习方法(CoOp、VPT和UPT)相比,MVLPT表现出较强的可推广性和小样本学习性能。性能最高的MVLPT在ELEVATER基准上树立了最先进的新性能。我们还研究了20项视觉任务的任务可迁移性,并为多任务提示学习提供了指导。我们展示了多任务视觉语言提示调整利用了跨任务知识,并有助于在ELEVATER基准上提高单个任务的性能。我们希望我们的研究将启发未来在视觉语言领域进行大规模多任务学习的研究,以及如何更有效地适应各种下游任务。

相关推荐
冬奇Lab10 小时前
Workflow 系列(04):Multi-Agent 协调——编排器边界、并发控制与上下文隔离
人工智能·工作流引擎
冬奇Lab10 小时前
每日一个开源项目(第147篇):HyperGraphRAG - 用超图表示 N 元关系,RAG 的第三代范式
人工智能·开源·graphql
甲维斯10 小时前
Github + 阿里云oss实现类似codex的自动更新!
人工智能
阿里云大数据AI技术12 小时前
光轮智能 × 阿里云:共建 Physical AI 云上数据、评测与持续学习基础设施
人工智能·机器学习
机器之心12 小时前
实锤了:Claude Code偷查用户,时区、中国AI实验室全是关键词
人工智能·openai
网易云信12 小时前
Cursor点燃个人开发者,企业级AI为何频频受挫?Agent工厂从提效工具到AI员工的跃迁
人工智能·开源
网易云信12 小时前
解锁触手可及的温暖:网易智企 x Wander Puffs AI 云游泡芙
人工智能
转转技术团队12 小时前
从 PRD 到可验证代码:AI 需求开发闭环实践
人工智能