摘要

CLIP等预先训练的视觉语言（V-L）模型对下游任务表现出了出色的泛化能力。但是，它们对输入文本提示的选择很敏感，需要仔细选择提示模板才能执行良好的操作。受自然语言处理（NLP）文献的启发，最近的CLIP自适应方法学习提示作为文本输入，以微调CLIP用于下游任务。我们注意到，在CLIP的单个分支（语言或视觉）中使用提示来调整表示是次优的，因为它不允许在下游任务上动态调整两个表示空间的灵活性。在这项工作中，我们提出了视觉和语言分支的多模式提示学习（MaPLe），以提高视觉和语言表征之间的一致性。我们的设计促进了视觉语言提示之间的强耦合，以确保相互协同，并阻止学习独立的单一模式解决方案。此外，我们在不同的早期阶段学习不同的提示，以逐步建立阶段特征关系的模型，从而实现丰富的上下文学习。我们评估了我们的方法在三个代表性任务上的有效性，即对新类的泛化、新的目标数据集和看不见的领域迁移。与最先进的方法CoCoOp相比，MaPLe表现出良好的性能，在11个不同的图像识别数据集上平均，在新类别上实现了3.45%的绝对增益，在总体谐波平均值上实现了2.72%的绝对增益。我们的代码和预训练模型可在https://github.com/muzairkhattak/multimodalprompt-learning找到.

1 引言

2 相关工作

3 方法

4 实验

5 结论

由于大量可调参数和下游数据集的大小有限，大规模V-L模型（例如CLIP）对下游任务的适应是一个具有挑战性的问题。提示学习是一种高效且可扩展的技术，可以根据新的下游任务定制V-L模型。为此，目前的提示学习方法要么只考虑视觉方面的提示，要么只考虑语言方面的提示。我们的工作表明，对视觉和语言分支进行提示是至关重要的，以使V-L模型适当地适应下游任务。此外，我们提出了一种策略，通过在不同的转换阶段明确地将视觉提示条件化为文本提示，来确保视觉语言模式之间的协同作用。我们的方法提高了对新类别、跨数据集转移和具有域转移的数据集的泛化能力。