提示学习

Modular Prompt Learning Improves_Vision-Language Models浅层连续提示方法将提示插入到第一个Transformer层的输入中，这些提示参与到后续所有Transformer层的上下文化过程（即自注意力机制[16]）中。而深层提示方法则持续用新插入的提示替换原有的连续提示。一个自然的问题是：移除插入的提示是否会丢失其中包含的信息？

AAAI2024论文解读|HGPROMPT Bridging Homogeneous and Heterogeneous GraphsHGPROMPT: Bridging Homogeneous and Heterogeneous Graphs for Few-shot Prompt Learning 跨同构异构图的小样本提示学习

SPT: Revisiting the Power of Prompt for Visual Tuning方法很简单，作者通过实验发现prompt拥有一个良好的初始化是VPT的关键，于是作者就通过在MAE/MoCo进行预训练来得到一个良好的prompt的初始化来提供微调阶段的prompt。

DeCoOp: Robust Prompt Tuning with Out-of-Distribution Detectionme：看得很迷糊新型检测器 M D \mathcal M_D MD的训练是为了对一个子基类去划分子基类中的base和new。

RPO: Read-only Prompt Optimization for Vision-Language Few-shot Learning对CoOp的改进CoCoOp尽管提升了性能，但却增加了方差（模型的准确率波动性较大）。一眼看去，跟maple很像(maple跟这篇文章都是2023年发表的)，但maple的视觉提示是由文本提示经过全连接转换而来的，而这里是文本提示和视觉提示是独立的。另外maple中的前J层的视觉/文本提示都是学习完之后就丢掉了。

VFPT: Visual Fourier Prompt Tuning部分调优和额外模块面临阻碍其应用的几个限制。①性能不理想：在全调优情况下，一般无法达到有竞争力的性能[4,26,27,28,33,10]；②面向模型的设计：大多数研究需要在调优期间插入特定的架构/块设计[31,30,32]，在考虑不同的主干时，使它们成为非通用的解决方案。

MMA: Multi-Modal Adapter for Vision-Language Models图1所示。各种基于transformer的CLIP模型中不同层的数据集级识别精度。这个实验是为了确定样本属于哪个数据集。我们用不同的种子运行了三次，并报告了每层识别精度的平均值和标准差。 X E m b e d XEmbed XEmbed是指变压器块之前的文本或图像嵌入层（即自关注层和前馈层[13]）， X P r o j XProj XProj是指文本或图像投影层。注意，本实验仅使用来自所有数据集的训练样例进行评估。

AAPL: Adding Attributes to Prompt Learning for Vision-Language Models如下图(a)所示， π \pi π在类聚类方面没有显示出很大的差异，这表明元标记 π \pi π未能捕获分类的关键语义特征。我们进行简单的数据增强后，如图(b)所示，效果也是如此

ALIGN_ Tuning Multi-mode Token-level Prompt Alignment across Modalities目前的工作集中于单模提示发现，即一种模态只有一个提示，这可能不足以代表一个类[17]。这个问题在多模态提示学习中更为严重，因为视觉和文本概念及其对齐都需要推断。此外，仅用全局特征来表示图像和标记是不可靠的[29,30]，可能会失去目标物体的局部区域特征，导致次优分类。

MoCoOp: Mixture of Prompt Learning for Vision Language Models如图1所示，对于一个数据集，单个软提示可能不足以捕获数据中呈现的各种样式。同一数据集中的不同实例可能与不同的提示符兼容。因此，更**自然的做法是使用多个提示来充分表示这些变化**。

DEPT：DECOMPOSED PROMPT TUNING FOR PARAMETER-EFFICIENT FINE-TUNING(1)Prompt Tuning通常收敛缓慢，并且对初始化敏感；(2)Prompt Tuning延长了输入序列的总长度，从而加剧了计算需求(即训练/推理时间和内存成本)，这是由于Transformer的二次复杂度(Vaswani et al, 2017)。

TCP: Textual-based Class-aware Prompt tuning for Visual-Language Model原文：具有图像特定知识的图像条件提示符号在提升类嵌入分布方面的能力较差。个人理解：单纯把"a photo of {class}"这种提示模版作为输入是不利于text encoder学习的

NEMESIS: NORMALIZING THE SOFT-PROMPT VECTORS OF VISION-LANGUAGE MODELSNorm增加会导致性能下降，Norm降低会导致性能上升。于是作者提出：我们需要规范化VLMs中的软提示吗?

Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels?本文的作者针对了提示学习的结构设计进行了分析，发现了一些规律：1)固定的类名令牌为模型的优化提供了强正则化，减少了由噪声样本引起的梯度。

E2VPT: An Effective and Efficient Approach for Visual Prompt Tuning1.以前的提示微调方法那样只关注修改输入，而应该明确地研究在微调过程中改进自注意机制的潜力，并探索参数效率的极限。

TaskRes: Task Residual for Tuning Vision-Language Models在提示调优中缺乏对先验知识保存的保证(me：即提示微调有可能会丢失预训练模型中的通用知识)。虽然预先训练的文本分支模块(如文本编码器和投影)的权重在提示调优范式中被冻结，但原始的良好学习的分类边界或多或少受到破坏。这是因为输入提示的调优最终会得到一个新的边界，如果没有显式的正则化，这个边界可能会忘记旧的知识。

Progressive Multi-modal Conditional Prompt Tuning图像的重复消化有助于提高分类精度。ProMPT不是直接进行预测，而是多次重新访问原始图像以检查答案，逐步将预测从粗糙细化到精确。希望达到的效果如下：图7:通过迭代进化，ProMPT逐步将CLIP产生的错误结果纠正为正确的结果。 ✓ \checkmark ✓表示正确和×表示不正确的预测。

DePT: Decoupled Prompt Tuning现有的提示调优方法通常无法摆脱Base-New Tradeoff(BNT)困境，即调优/调整的模型对基本任务的泛化效果越好，对新任务的泛化效果就越差(包含不可见的类)，反之新任务的泛化效果越好，所需要的代价便是基本任务的泛化效果越差。作者最终达到的结果便是：Base和New的准确率上同时得到提升

MVPT: Multitask Vision-Language Prompt Tuning提示调整(Prompt Tuning)是一种针对特定任务的学习提示向量的调节，已成为一种数据高效和参数高效的方法，用于使大型预训练的视觉语言模型适应多个下游任务。然而，现有的方法通常是从头开始独立地学习每个任务的提示向量，从而无法利用不同视觉语言任务之间丰富的可共享知识。在本文中，我们提出了多任务视觉语言提示调优(MVLPT)，它将跨任务知识融入到视觉语言模型的提示调优中。具体来说，(i)我们证明了从多个源任务中学习单个可转移提示以初始化每个目标任务的提示的有效性;(ii)我们证明了许多目标任务可以通过共

PDA:Prompt-based Distribution Alignment for Unsupervised Domain Adaptation式中， y s y^s ys表示源域数据的one-hot ground-truth， K K K为类数， w i w_i wi和 z ~ s \tilde{z}_s z~s分别表示源域经过提示调优的最终文本表示和最终图像表示的第 i i i类。同理，为了进一步利用目标领域的数据，我们使用伪标签来训练这些未标记的数据。为了提高这些伪标签的可靠性，我们设置了一个固定的阈值 τ \tau τ。如果CLIP预测的给定图像的最大概率 τ p \tau_p τp低于该阈值，则丢弃伪标签。同样，我们采用对比损失函数: