MaPLe: Multi-modal Prompt Learning

本文也是LLM系统的文章,主要是面向多模态的大语言模型,针对《MaPLe: Multi-modal Prompt Learning》的翻译。

MaPLe:多模态提示学习

  • 摘要
  • [1 引言](#1 引言)
  • [2 相关工作](#2 相关工作)
  • [3 方法](#3 方法)
  • [4 实验](#4 实验)
  • [5 结论](#5 结论)

摘要

CLIP等预先训练的视觉语言(V-L)模型对下游任务表现出了出色的泛化能力。但是,它们对输入文本提示的选择很敏感,需要仔细选择提示模板才能执行良好的操作。受自然语言处理(NLP)文献的启发,最近的CLIP自适应方法学习提示作为文本输入,以微调CLIP用于下游任务。我们注意到,在CLIP的单个分支(语言或视觉)中使用提示来调整表示是次优的,因为它不允许在下游任务上动态调整两个表示空间的灵活性。在这项工作中,我们提出了视觉和语言分支的多模式提示学习(MaPLe),以提高视觉和语言表征之间的一致性。我们的设计促进了视觉语言提示之间的强耦合,以确保相互协同,并阻止学习独立的单一模式解决方案。此外,我们在不同的早期阶段学习不同的提示,以逐步建立阶段特征关系的模型,从而实现丰富的上下文学习。我们评估了我们的方法在三个代表性任务上的有效性,即对新类的泛化、新的目标数据集和看不见的领域迁移。与最先进的方法CoCoOp相比,MaPLe表现出良好的性能,在11个不同的图像识别数据集上平均,在新类别上实现了3.45%的绝对增益,在总体谐波平均值上实现了2.72%的绝对增益。我们的代码和预训练模型可在https://github.com/muzairkhattak/multimodalprompt-learning找到.

1 引言

2 相关工作

3 方法

4 实验

5 结论

由于大量可调参数和下游数据集的大小有限,大规模V-L模型(例如CLIP)对下游任务的适应是一个具有挑战性的问题。提示学习是一种高效且可扩展的技术,可以根据新的下游任务定制V-L模型。为此,目前的提示学习方法要么只考虑视觉方面的提示,要么只考虑语言方面的提示。我们的工作表明,对视觉和语言分支进行提示是至关重要的,以使V-L模型适当地适应下游任务。此外,我们提出了一种策略,通过在不同的转换阶段明确地将视觉提示条件化为文本提示,来确保视觉语言模式之间的协同作用。我们的方法提高了对新类别、跨数据集转移和具有域转移的数据集的泛化能力。

相关推荐
syugyou7 分钟前
HMM 和 CRF 的比较与应用
人工智能
Flying pigs~~10 分钟前
机器学习之线性回归
人工智能·算法·机器学习·数据挖掘·回归·线性回归
草莓熊Lotso11 分钟前
Ext 系列文件系统核心:块、分区、inode 与块组结构详解
android·linux·c语言·开发语言·c++·人工智能·文件
有点心急102115 分钟前
SQL 执行 MCP 工具开发(一)
人工智能·python·aigc
清风与日月17 分钟前
OpenCV 图像显示高级技巧和常见问题
人工智能·opencv·计算机视觉
摘星编程17 分钟前
突破界限!多模态AI如何重塑人机交互的未来?
人工智能·人机交互
勇气要爆发19 分钟前
2026年想学AI,面对 Dify、Coze、n8n、LangChain 该学哪个?
人工智能·langchain·dify·coze·n8n
love530love21 分钟前
ZeroClaw Reflex UI完整搭建流程——ZeroClaw Gateway + LM Studio + Reflex 本地 AI 管理面板
人工智能·windows·gateway·lm studio·reflex·openclaw·zeroclaw
CelestialYuxin23 分钟前
FAMOSE:ReAct智能体驱动的自动化特征工程新框架
人工智能
qq_4542450325 分钟前
开源GraphMindStudio工作流引擎:自动化与AI智能体的理想核心
运维·人工智能·开源·c#·自动化