【提示学习论文】TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model

TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model(CVPR2024)

  • 基于文本的类感知提示调优的VLM
  • KgCoOp为baseline,进行改进,把 w c l i p w_{clip} wclip进行投影,然后与Learnable prompts进行结合。

Abstract

近年来,通过可学习的域共享或图像条件的文本tokens,促进生成适用于特定任务的分类器

问题:

这些textual tokens对unseen域具有有限的泛化能力,不能动态地适应测试类的分布

解决:

提出了新的基于文本的类感知提示调优(TCP,Textual-based Class-aware Prompt)。显式地结合关于类的先验知识,增强它们的可辨别性。利用文本知识嵌入(TKE),映射高泛化性的类级文本知识,到类感知文本tokens。通过无缝地将这些类感知提示集成到Text Encoder中,可以生成一个动态的类感知分类器,以增强对不可见域的可辨别性。

推断阶段,TKE动态地生成与unseen类相关的类感知提示,可作为即插即用的模型与现有方法轻松结合。

1 Introduction

图像条件文tokens封装了每个图像的特定知识,特别是测试图像,从而更容易泛化到unseen类。

3 方法

TKE将一般类级的textual embedding转化成类感知提示,然后与Learnable tokens 结合。

3.2 基于文本的类感知提示提示调优

TKE:投影class-level embedding W c l i p W^{clip} Wclip,得到class-aware prompt T

TKE包括两层

  • 下投影层
    使用权重 W d o w n W_{down} Wdown将 W c l i p W^{clip} Wclip其投成低维特征
  • 上投影层
    使用权重 W u p W_{up} Wup将 W d w o n W^{dwon} Wdwon其投成高维特征
    得到
    ![[TCPg5.png]]
    再重塑成
    ![[TCPg6.png]]
    插入到文本编码器的中间层

4 实验

作者将其分为tp、vp、dtp、dvp,比较了近年来的方法

消融实验

  • Prompt长度:M=8最好
  • 不同模板的效果:可学习prompt最好
  • Dmid的作用:128时效果最好
  • 类感知prompt拼接到哪:第8层最好
相关推荐
chools2 小时前
【AI超级智能体】快速搞懂工具调用Tool Calling 和 MCP协议
java·人工智能·学习·ai
自信150413057593 小时前
重生之从0开始学习c++之模板初级
c++·学习
nashane3 小时前
HarmonyOS 6学习:解决异步场景下Toast提示框无法弹出的UI上下文丢失问题
学习·ui·harmonyos·harmony app
小程故事多_804 小时前
破除迷思,Harness Engineering从来都不是时代过渡品
人工智能·架构·prompt·aigc
码喽7号6 小时前
Vue学习七:MockJs前端数据模拟
前端·vue.js·学习
三品吉他手会点灯7 小时前
STM32F103 学习笔记-21-串口通信(第4节)—串口发送和接收代码讲解(中)
笔记·stm32·单片机·嵌入式硬件·学习
EnglishJun9 小时前
ARM嵌入式学习(二十三)--- I2C总线和SPI总线
arm开发·学习
饭后一颗花生米9 小时前
2026 AI加持下前端学习路线:从入门到进阶,高效突破核心竞争力
前端·人工智能·学习
北山有鸟9 小时前
【学习笔记】MIPI CSI-2 协议全解析:从底层封包到像素解析
linux·驱动开发·笔记·学习·相机
YCY^v^10 小时前
PSW、PFW、SPSW、SPFW 是信捷TouchWin
学习