深度学习·VPT

VPT

  • 核心思想:冻结backbone,在encoder的输入中
    引入额外可学习的token,微调这些token和decoder部分,避免直接调整backbone。
  • 两种方法:Deep和Shallow
    只有第一层的prompt token是可以学习的参数

    每一层 transformer layer的prompt token都是可以学习的参数

VPT的应用

  • VIT模型
  • SWIN transformer,这个有点不同,没有[cls] token

VPT on hierarchical Transformers. We extend VPT to Swin [52], which employs MSA within local shifted windows and merges patch embeddings at deeper layers. For simplicity and without loss of generality, we implement VPT in the most straightforward manner: the prompts are attended within the local windows, but are ignored during patch merging stages. The experiments are conducted on the ImageNet-21k supervised pre-trained Swin-Base. VPT continues to outperform other parameter-efficient fine-tuning methods (b, c) for all three subgroups of VTAB Tab. 2, though in this case Full yields the highest accuracy scores overall (at a heavy cost in total parameters).

VPT的探究

prompt的位置

  • 结论:就是作为独立的输入最好
  • 1:直接单独作为输入的一部分,与patch embedding分开
  • 2:与patch embedding进行累加
  • 3:在embedding,前加入prompt
  • 4:在embeddingprompt作为一个通道加入

prompt length

  • 可以看到10~100这个区间 最合适。
相关推荐
冴羽2 分钟前
Nano Banana Pro 很强,但你要学会写提示词才能为所欲为
人工智能·aigc·mcp
ATMQuant12 分钟前
量化指标解码11:挤压动量 - 捕捉低波动后的爆发行情
人工智能·ai·量化交易·vnpy
Aurora-silas23 分钟前
Mac 本地运行 Hugging Face 大模型完全指南:PyTorch (MPS) vs Apple MLX
人工智能·pytorch·macos
机器不学习我也不学习38 分钟前
人工智能综合项目开发14----技术文档撰写
人工智能
GISer_Jing40 分钟前
SSE Conf大会分享支付宝xUI引擎:AI时代的多模态交互革命
前端·人工智能·交互
有一个好名字1 小时前
Spring AI ——Java开发者的AI集成神器
java·人工智能·spring
WordPress学习笔记1 小时前
专业建外贸网站公司推荐
大数据·前端·人工智能
p***95001 小时前
DeepSeek R1 简易指南:架构、本地部署和硬件要求
人工智能·架构
John_ToDebug1 小时前
AI时代的浏览器内核开发:从“渲染引擎”到“智能中枢”的范式革命
人工智能·chrome
Julian.zhou1 小时前
Anthropic破解长程任务难题:长期运行智能体的高效控制机制
大数据·人工智能