提示学习

十有久诚1 个月前
人工智能·深度学习·计算机视觉·提示学习
SPT: Revisiting the Power of Prompt for Visual Tuning方法很简单,作者通过实验发现prompt拥有一个良好的初始化是VPT的关键,于是作者就通过在MAE/MoCo进行预训练来得到一个良好的prompt的初始化来提供微调阶段的prompt。
十有久诚1 个月前
人工智能·计算机视觉·提示学习·提示·视觉语言模型·域外检测
DeCoOp: Robust Prompt Tuning with Out-of-Distribution Detectionme:看得很迷糊新型检测器 M D \mathcal M_D MD的训练是为了对一个子基类去划分子基类中的base和new。
十有久诚1 个月前
人工智能·深度学习·提示学习·视觉语言模型
RPO: Read-only Prompt Optimization for Vision-Language Few-shot Learning对CoOp的改进CoCoOp尽管提升了性能,但却增加了方差(模型的准确率波动性较大)。一眼看去,跟maple很像(maple跟这篇文章都是2023年发表的),但maple的视觉提示是由文本提示经过全连接转换而来的,而这里是文本提示和视觉提示是独立的。另外maple中的前J层的视觉/文本提示都是学习完之后就丢掉了。
十有久诚1 个月前
人工智能·深度学习·提示学习
VFPT: Visual Fourier Prompt Tuning部分调优和额外模块面临阻碍其应用的几个限制。①性能不理想:在全调优情况下,一般无法达到有竞争力的性能[4,26,27,28,33,10];②面向模型的设计:大多数研究需要在调优期间插入特定的架构/块设计[31,30,32],在考虑不同的主干时,使它们成为非通用的解决方案。
十有久诚3 个月前
人工智能·深度学习·计算机视觉·提示学习·视觉语言模型·1024程序员节
MMA: Multi-Modal Adapter for Vision-Language Models图1所示。各种基于transformer的CLIP模型中不同层的数据集级识别精度。这个实验是为了确定样本属于哪个数据集。我们用不同的种子运行了三次,并报告了每层识别精度的平均值和标准差。 X E m b e d XEmbed XEmbed是指变压器块之前的文本或图像嵌入层(即自关注层和前馈层[13]), X P r o j XProj XProj是指文本或图像投影层。注意,本实验仅使用来自所有数据集的训练样例进行评估。
十有久诚3 个月前
人工智能·深度学习·计算机视觉·提示学习·视觉语言模型·1024程序员节
AAPL: Adding Attributes to Prompt Learning for Vision-Language Models如下图(a)所示, π \pi π在类聚类方面没有显示出很大的差异,这表明元标记 π \pi π未能捕获分类的关键语义特征。我们进行简单的数据增强后,如图(b)所示,效果也是如此
十有久诚3 个月前
人工智能·计算机视觉·提示学习·视觉语言模型·1024程序员节
ALIGN_ Tuning Multi-mode Token-level Prompt Alignment across Modalities目前的工作集中于单模提示发现,即一种模态只有一个提示,这可能不足以代表一个类[17]。这个问题在多模态提示学习中更为严重,因为视觉和文本概念及其对齐都需要推断。此外,仅用全局特征来表示图像和标记是不可靠的[29,30],可能会失去目标物体的局部区域特征,导致次优分类。
十有久诚3 个月前
人工智能·深度学习·计算机视觉·提示学习·视觉语言模型
MoCoOp: Mixture of Prompt Learning for Vision Language Models如图1所示,对于一个数据集,单个软提示可能不足以捕获数据中呈现的各种样式。同一数据集中的不同实例可能与不同的提示符兼容。因此,更**自然的做法是使用多个提示来充分表示这些变化**。
十有久诚3 个月前
人工智能·深度学习·计算机视觉·提示学习·视觉语言模型
DEPT:DECOMPOSED PROMPT TUNING FOR PARAMETER-EFFICIENT FINE-TUNING(1)Prompt Tuning通常收敛缓慢,并且对初始化敏感;(2)Prompt Tuning延长了输入序列的总长度,从而加剧了计算需求(即训练/推理时间和内存成本),这是由于Transformer的二次复杂度(Vaswani et al, 2017)。
十有久诚4 个月前
深度学习·提示学习·视觉语言模型
TCP: Textual-based Class-aware Prompt tuning for Visual-Language Model原文:具有图像特定知识的图像条件提示符号在提升类嵌入分布方面的能力较差。个人理解:单纯把"a photo of {class}"这种提示模版作为输入是不利于text encoder学习的
十有久诚4 个月前
人工智能·深度学习·提示学习·视觉语言模型
NEMESIS: NORMALIZING THE SOFT-PROMPT VECTORS OF VISION-LANGUAGE MODELSNorm增加会导致性能下降,Norm降低会导致性能上升。于是作者提出:我们需要规范化VLMs中的软提示吗?
十有久诚4 个月前
人工智能·深度学习·提示学习·视觉语言模型
Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels?本文的作者针对了提示学习的结构设计进行了分析,发现了一些规律:1)固定的类名令牌为模型的优化提供了强正则化,减少了由噪声样本引起的梯度。
十有久诚4 个月前
人工智能·深度学习·提示学习·视觉语言模型
E2VPT: An Effective and Efficient Approach for Visual Prompt Tuning1.以前的提示微调方法那样只关注修改输入,而应该明确地研究在微调过程中改进自注意机制的潜力,并探索参数效率的极限。
十有久诚4 个月前
人工智能·深度学习·提示学习·视觉语言模型
TaskRes: Task Residual for Tuning Vision-Language Models在提示调优中缺乏对先验知识保存的保证(me:即提示微调有可能会丢失预训练模型中的通用知识)。虽然预先训练的文本分支模块(如文本编码器和投影)的权重在提示调优范式中被冻结,但原始的良好学习的分类边界或多或少受到破坏。这是因为输入提示的调优最终会得到一个新的边界,如果没有显式的正则化,这个边界可能会忘记旧的知识。
十有久诚5 个月前
人工智能·深度学习·提示学习·多模态模型
Progressive Multi-modal Conditional Prompt Tuning图像的重复消化有助于提高分类精度。ProMPT不是直接进行预测,而是多次重新访问原始图像以检查答案,逐步将预测从粗糙细化到精确。 希望达到的效果如下: 图7:通过迭代进化,ProMPT逐步将CLIP产生的错误结果纠正为正确的结果。 ✓ \checkmark ✓表示正确和×表示不正确的预测。
十有久诚5 个月前
人工智能·深度学习·计算机视觉·提示学习
DePT: Decoupled Prompt Tuning现有的提示调优方法通常无法摆脱Base-New Tradeoff(BNT)困境,即调优/调整的模型对基本任务的泛化效果越好,对新任务的泛化效果就越差(包含不可见的类),反之新任务的泛化效果越好,所需要的代价便是基本任务的泛化效果越差。 作者最终达到的结果便是:Base和New的准确率上同时得到提升
十有久诚6 个月前
人工智能·深度学习·机器学习·提示学习
MVPT: Multitask Vision-Language Prompt Tuning提示调整(Prompt Tuning)是一种针对特定任务的学习提示向量的调节,已成为一种数据高效和参数高效的方法,用于使大型预训练的视觉语言模型适应多个下游任务。然而,现有的方法通常是从头开始独立地学习每个任务的提示向量,从而无法利用不同视觉语言任务之间丰富的可共享知识。在本文中,我们提出了多任务视觉语言提示调优(MVLPT),它将跨任务知识融入到视觉语言模型的提示调优中。具体来说,(i)我们证明了从多个源任务中学习单个可转移提示以初始化每个目标任务的提示的有效性;(ii)我们证明了许多目标任务可以通过共
十有久诚6 个月前
人工智能·深度学习·提示学习
PDA:Prompt-based Distribution Alignment for Unsupervised Domain Adaptation式中, y s y^s ys表示源域数据的one-hot ground-truth, K K K为类数, w i w_i wi和 z ~ s \tilde{z}_s z~s分别表示源域经过提示调优的最终文本表示和最终图像表示的第 i i i类。 同理,为了进一步利用目标领域的数据,我们使用伪标签来训练这些未标记的数据。为了提高这些伪标签的可靠性,我们设置了一个固定的阈值 τ \tau τ。如果CLIP预测的给定图像的最大概率 τ p \tau_p τp低于该阈值,则丢弃伪标签。同样,我们采用对比损失函数:
十有久诚7 个月前
人工智能·深度学习·计算机视觉·提示学习
PPT: Pre-trained Prompt Tuning for Few-shot Learning当前的学者(a)、(b)、©都是通过微调模型(encoder/decoder)来适应下游任务。尽管效果很好,但是一方面代价很大,一方面在小样本设置下,微调模型这种做法性能差得多。本文的想法:通过一些预训练任务仅冻结所有PLM参数并仅调整软提示,而不添加任何中间层和任务特定组件。 从公式的角度来描述: 目标都是希望掩码的预测结果等于标签 v ( y ) v(y) v(y) 公式(1)即为之前的做法:微调的为encoder/decoder的参数 θ \theta θ 公式(2)即为推荐的做法:添加上软提示 P
TechBeat人工智能社区1 年前
计算机视觉·提示学习·aaai·clip·上下文学习
AAAI 2024 | Adobe提出全新上下文提示学习框架CoPL,高效提升下游性能论文题目:CoPL: Contextual Prompt Learning for Vision-Language Understanding 论文链接:https://arxiv.org/abs/2307.00910