【提示学习论文】TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model

TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model（CVPR2024）

基于文本的类感知提示调优的VLM
KgCoOp为baseline，进行改进，把 w c l i p w_{clip} wclip进行投影，然后与Learnable prompts进行结合。

Abstract

近年来，通过可学习的域共享或图像条件的文本tokens，促进生成适用于特定任务的分类器

问题：

这些textual tokens对unseen域具有有限的泛化能力，不能动态地适应测试类的分布

解决：

提出了新的基于文本的类感知提示调优（TCP，Textual-based Class-aware Prompt）。显式地结合关于类的先验知识，增强它们的可辨别性。利用文本知识嵌入（TKE），映射高泛化性的类级文本知识，到类感知文本tokens。通过无缝地将这些类感知提示集成到Text Encoder中，可以生成一个动态的类感知分类器，以增强对不可见域的可辨别性。

推断阶段，TKE动态地生成与unseen类相关的类感知提示，可作为即插即用的模型与现有方法轻松结合。

1 Introduction

图像条件文tokens封装了每个图像的特定知识，特别是测试图像，从而更容易泛化到unseen类。

3 方法

TKE将一般类级的textual embedding转化成类感知提示，然后与Learnable tokens 结合。

3.2 基于文本的类感知提示提示调优

TKE：投影class-level embedding W c l i p W^{clip} Wclip，得到class-aware prompt T

TKE包括两层

下投影层
使用权重 W d o w n W_{down} Wdown将 W c l i p W^{clip} Wclip其投成低维特征
上投影层
使用权重 W u p W_{up} Wup将 W d w o n W^{dwon} Wdwon其投成高维特征
得到
![[TCPg5.png]]
再重塑成
![[TCPg6.png]]
插入到文本编码器的中间层

4 实验

作者将其分为tp、vp、dtp、dvp，比较了近年来的方法

消融实验

Prompt长度：M=8最好
不同模板的效果：可学习prompt最好
Dmid的作用：128时效果最好
类感知prompt拼接到哪：第8层最好