深度学习·VPT

VPT

  • 核心思想:冻结backbone,在encoder的输入中
    引入额外可学习的token,微调这些token和decoder部分,避免直接调整backbone。
  • 两种方法:Deep和Shallow
    只有第一层的prompt token是可以学习的参数

    每一层 transformer layer的prompt token都是可以学习的参数

VPT的应用

  • VIT模型
  • SWIN transformer,这个有点不同,没有[cls] token

VPT on hierarchical Transformers. We extend VPT to Swin [52], which employs MSA within local shifted windows and merges patch embeddings at deeper layers. For simplicity and without loss of generality, we implement VPT in the most straightforward manner: the prompts are attended within the local windows, but are ignored during patch merging stages. The experiments are conducted on the ImageNet-21k supervised pre-trained Swin-Base. VPT continues to outperform other parameter-efficient fine-tuning methods (b, c) for all three subgroups of VTAB Tab. 2, though in this case Full yields the highest accuracy scores overall (at a heavy cost in total parameters).

VPT的探究

prompt的位置

  • 结论:就是作为独立的输入最好
  • 1:直接单独作为输入的一部分,与patch embedding分开
  • 2:与patch embedding进行累加
  • 3:在embedding,前加入prompt
  • 4:在embeddingprompt作为一个通道加入

prompt length

  • 可以看到10~100这个区间 最合适。
相关推荐
Fuliy961 分钟前
【数字图像处理系列笔记】Ch04:灰度变换与空间域图像增强(2)
图像处理·人工智能·笔记·计算机视觉·数字图像处理
ALLMHUB14 分钟前
【附API无限制使用方法】Claude Opus 4.1正式上线:智能编程助手的新里程碑
人工智能
老周聊大模型19 分钟前
让AI对话像流水般自然:深入大模型Streaming技术核心源码
人工智能·机器学习·程序员
康斯坦丁师傅24 分钟前
最强编程模型Claude Opus 4.1上线:附保姆级使用教程
人工智能·claude
聚客AI33 分钟前
💡小白都能看懂的RAG分块实战:从递归分割到LLM智能拆解的全解析
人工智能·llm·掘金·日新计划
AI必将改变世界33 分钟前
【软考系统架构设计师备考笔记5】 - 专业英语
java·开发语言·人工智能·笔记·系统架构·英语
喵王叭44 分钟前
【大模型实战】向量数据库实战 - Chroma & Milvus
数据库·人工智能·langchain
NewCarRen1 小时前
基于AI的自动驾驶汽车(AI-AV)网络安全威胁缓解框架
人工智能·自动驾驶·汽车
2501_924879361 小时前
密集表盘漏检率↓79%!陌讯多模态融合算法在电表箱状态识别的边缘优化
人工智能·算法·计算机视觉·目标跟踪·智慧城市
ViiTor_AI1 小时前
如何给小语种视频生成字幕?我的实测方法分享
人工智能·语音识别