深度学习·VPT

VPT

  • 核心思想:冻结backbone,在encoder的输入中
    引入额外可学习的token,微调这些token和decoder部分,避免直接调整backbone。
  • 两种方法:Deep和Shallow
    只有第一层的prompt token是可以学习的参数

    每一层 transformer layer的prompt token都是可以学习的参数

VPT的应用

  • VIT模型
  • SWIN transformer,这个有点不同,没有[cls] token

VPT on hierarchical Transformers. We extend VPT to Swin [52], which employs MSA within local shifted windows and merges patch embeddings at deeper layers. For simplicity and without loss of generality, we implement VPT in the most straightforward manner: the prompts are attended within the local windows, but are ignored during patch merging stages. The experiments are conducted on the ImageNet-21k supervised pre-trained Swin-Base. VPT continues to outperform other parameter-efficient fine-tuning methods (b, c) for all three subgroups of VTAB Tab. 2, though in this case Full yields the highest accuracy scores overall (at a heavy cost in total parameters).

VPT的探究

prompt的位置

  • 结论:就是作为独立的输入最好
  • 1:直接单独作为输入的一部分,与patch embedding分开
  • 2:与patch embedding进行累加
  • 3:在embedding,前加入prompt
  • 4:在embeddingprompt作为一个通道加入

prompt length

  • 可以看到10~100这个区间 最合适。
相关推荐
老黄编程几秒前
大型工地实时数据处理与三维重构系统方案(极简中心化部署版)
人工智能·数码相机·计算机视觉·大数据处理·入侵检测·三维重构
狙击主力投资工具8 分钟前
26年5月4日本周复盘总结,好票机会,下周大盘方向,热门板块方向,操作建议,实用干货
人工智能·区块链
生物信息与育种16 分钟前
黄三文院士领衔植物星球计划(PLANeT)发表Cell
人工智能·深度学习·算法·面试·transformer
Data-Miner24 分钟前
10个最佳表格Agent工具深度评测:让数据处理效率翻倍的智能助手
人工智能
threelab39 分钟前
Three.js 咖啡杯烟雾效果 | 三维可视化 / AI 提示词
开发语言·javascript·人工智能
地理探险家41 分钟前
做植物病害识别,数据我帮你整理好了(叶片数据合集+使用建议)
人工智能·深度学习·数据集·植物·病害
生物信息与育种1 小时前
Plant Com | 华中农大&上海交大联合开发植物核心启动子AI从头设计框架TargetGAN
人工智能
生成论实验室1 小时前
《事件关系阴阳博弈动力学:识势应势之道》第七篇:社会与情感关系——连接、表达与共鸣
人工智能·算法·架构·交互·创业创新
1104.北光c°1 小时前
【AI核心概念讲解】一口气搞懂 Agent:干翻传统后端!自主循环决策的秘密,ReAct 与 Plan-and-Execute 范式
java·人工智能·程序人生·ai·agent·react·智能体