MaPLe: Multi-modal Prompt Learning

本文也是LLM系统的文章,主要是面向多模态的大语言模型,针对《MaPLe: Multi-modal Prompt Learning》的翻译。

MaPLe:多模态提示学习

  • 摘要
  • [1 引言](#1 引言)
  • [2 相关工作](#2 相关工作)
  • [3 方法](#3 方法)
  • [4 实验](#4 实验)
  • [5 结论](#5 结论)

摘要

CLIP等预先训练的视觉语言(V-L)模型对下游任务表现出了出色的泛化能力。但是,它们对输入文本提示的选择很敏感,需要仔细选择提示模板才能执行良好的操作。受自然语言处理(NLP)文献的启发,最近的CLIP自适应方法学习提示作为文本输入,以微调CLIP用于下游任务。我们注意到,在CLIP的单个分支(语言或视觉)中使用提示来调整表示是次优的,因为它不允许在下游任务上动态调整两个表示空间的灵活性。在这项工作中,我们提出了视觉和语言分支的多模式提示学习(MaPLe),以提高视觉和语言表征之间的一致性。我们的设计促进了视觉语言提示之间的强耦合,以确保相互协同,并阻止学习独立的单一模式解决方案。此外,我们在不同的早期阶段学习不同的提示,以逐步建立阶段特征关系的模型,从而实现丰富的上下文学习。我们评估了我们的方法在三个代表性任务上的有效性,即对新类的泛化、新的目标数据集和看不见的领域迁移。与最先进的方法CoCoOp相比,MaPLe表现出良好的性能,在11个不同的图像识别数据集上平均,在新类别上实现了3.45%的绝对增益,在总体谐波平均值上实现了2.72%的绝对增益。我们的代码和预训练模型可在https://github.com/muzairkhattak/multimodalprompt-learning找到.

1 引言

2 相关工作

3 方法

4 实验

5 结论

由于大量可调参数和下游数据集的大小有限,大规模V-L模型(例如CLIP)对下游任务的适应是一个具有挑战性的问题。提示学习是一种高效且可扩展的技术,可以根据新的下游任务定制V-L模型。为此,目前的提示学习方法要么只考虑视觉方面的提示,要么只考虑语言方面的提示。我们的工作表明,对视觉和语言分支进行提示是至关重要的,以使V-L模型适当地适应下游任务。此外,我们提出了一种策略,通过在不同的转换阶段明确地将视觉提示条件化为文本提示,来确保视觉语言模式之间的协同作用。我们的方法提高了对新类别、跨数据集转移和具有域转移的数据集的泛化能力。

相关推荐
玄同76512 分钟前
Python 正则表达式:LLM 噪声语料的精准清洗
人工智能·python·自然语言处理·正则表达式·nlp·知识图谱·rag
2401_8414956417 分钟前
【机器学习】BP神经网络
人工智能·python·神经网络·机器学习·梯度下降法·反向传播·前向传播
Coovally AI模型快速验证29 分钟前
当小龙虾算法遇上YOLO:如何提升太阳能电池缺陷检测精度?
人工智能·深度学习·算法·yolo·目标检测·无人机
深圳行云创新35 分钟前
行云创新 AI+CloudOS:AI + 云原生落地新范式
人工智能·云原生·系统架构
AI视觉网奇38 分钟前
火星- ue数字人智能体 学习笔记
人工智能·笔记·学习
边缘计算社区1 小时前
第12届全球边缘计算大会-精彩瞬间
大数据·人工智能·边缘计算
后端小肥肠1 小时前
DeepSeek3.2+Coze王炸组合!小红书这个隐秘赛道有人成交7万单,有手就行!
人工智能·aigc·coze
阳光普照世界和平1 小时前
2025年智能体架构与主流技术深度研究报告:从生成式AI迈向自主执行层
人工智能·架构
hzp6661 小时前
招牌红烧肉版-深度神经网络
人工智能·深度学习·神经网络·llm·aigc·dnn·反向传播
乾元1 小时前
Service Mesh 与网络抽象:AI 如何做服务层次网络策略生成(微服务 / 云原生)
网络·人工智能·安全·微服务·云原生·运维开发·service_mesh