Multitask Vision-Language Prompt Tuning

本文是LLM系列文章,针对《Multitask Vision-Language Prompt Tuning》的翻译。

多任务视觉语言提示调整

  • 摘要
  • [1 引言](#1 引言)
  • [2 相关工作](#2 相关工作)
  • [3 方法](#3 方法)
  • [4 实验](#4 实验)
  • [5 讨论](#5 讨论)
  • [6 结论](#6 结论)

摘要

提示调整以任务特定的学习提示向量为条件,已成为一种数据高效和参数高效的方法,用于将大型预训练视觉语言模型适应多个下游任务。然而,现有的方法通常考虑从头开始独立地为每个任务学习提示向量,从而无法在不同的视觉语言任务中利用丰富的可共享知识。在本文中,我们提出了多任务视觉语言提示调整(MVLPT),它将跨任务知识纳入视觉语言模型的提示调整中。具体而言,(i)我们证明了从多个源任务学习单个可迁移提示以初始化每个目标任务的提示的有效性;(ii)我们表明,许多目标任务可以通过共享提示向量而相互受益,因此可以通过多任务提示调整来联合学习。我们使用三种有代表性的提示调整方法对所提出的MVLPT进行了基准测试,即文本提示调整、视觉提示调整和统一视觉语言提示调整。在20个视觉任务中的结果表明,所提出的方法优于所有单任务基线提示调整方法,在小样本ELEVATER基准和跨任务泛化基准上树立了最先进的水平。为了了解跨任务知识在哪里最有效,我们还对任务可迁移性进行了大规模研究,对每种提示调整方法的400个组合中的20个视觉任务进行了研究。研究表明,对于每种提示调整方法,性能最好的MVLPT都倾向于不同的任务组合,并且许多任务可以相互受益,这取决于它们的视觉相似性和标签相似性。代码可在https://github.com/sIncerass/MVLPT找到。

1 引言

2 相关工作

3 方法

4 实验

5 讨论

6 结论

在本文中,我们提出了多任务视觉语言提示调整(MVLPT)。我们证明,与基线提示学习方法(CoOp、VPT和UPT)相比,MVLPT表现出较强的可推广性和小样本学习性能。性能最高的MVLPT在ELEVATER基准上树立了最先进的新性能。我们还研究了20项视觉任务的任务可迁移性,并为多任务提示学习提供了指导。我们展示了多任务视觉语言提示调整利用了跨任务知识,并有助于在ELEVATER基准上提高单个任务的性能。我们希望我们的研究将启发未来在视觉语言领域进行大规模多任务学习的研究,以及如何更有效地适应各种下游任务。

相关推荐
程序员cxuan3 小时前
为每个任务配一套 harness:Claude Code 里的动态工作流
人工智能
程序员cxuan3 小时前
Claude Fable 5 来了
人工智能·后端·程序员
云边云科技_云网融合3 小时前
云边云科技亮相 2026 WOD 制造业数智化博览会 云网融合赋能制造焕新
人工智能·科技·安全·制造
Σίσυφος19003 小时前
激光三角 光平面标定-多高度误差分析
人工智能·计算机视觉·平面
JS菌3 小时前
手写一个 AI Agent 全栈项目:从沙箱执行到子智能体的完整实现
前端·人工智能·后端
lqqjuly3 小时前
前沿算法深度解析(二)
人工智能·算法·机器学习
Bode_20023 小时前
基于大数据分析的全生命周期质量追溯质量评估体系落地方案
大数据·人工智能
分布式存储与RustFS4 小时前
RustFS S3 Table 开源后,我重新梳理了一下 Iceberg 数据湖的选型思路
人工智能·开源·minio·dpu·rustfs·ai存储·s3 table
DevOpenClub4 小时前
用 Agent 搭建网页内容采集与结构化处理流水线
人工智能
56AI4 小时前
2026 企业级AI智能体开发平台推荐:聚焦底层安全与准确率的智能体平台
人工智能·安全·智能体