深度学习·VPT

VPT

  • 核心思想:冻结backbone,在encoder的输入中
    引入额外可学习的token,微调这些token和decoder部分,避免直接调整backbone。
  • 两种方法:Deep和Shallow
    只有第一层的prompt token是可以学习的参数

    每一层 transformer layer的prompt token都是可以学习的参数

VPT的应用

  • VIT模型
  • SWIN transformer,这个有点不同,没有[cls] token

VPT on hierarchical Transformers. We extend VPT to Swin [52], which employs MSA within local shifted windows and merges patch embeddings at deeper layers. For simplicity and without loss of generality, we implement VPT in the most straightforward manner: the prompts are attended within the local windows, but are ignored during patch merging stages. The experiments are conducted on the ImageNet-21k supervised pre-trained Swin-Base. VPT continues to outperform other parameter-efficient fine-tuning methods (b, c) for all three subgroups of VTAB Tab. 2, though in this case Full yields the highest accuracy scores overall (at a heavy cost in total parameters).

VPT的探究

prompt的位置

  • 结论:就是作为独立的输入最好
  • 1:直接单独作为输入的一部分,与patch embedding分开
  • 2:与patch embedding进行累加
  • 3:在embedding,前加入prompt
  • 4:在embeddingprompt作为一个通道加入

prompt length

  • 可以看到10~100这个区间 最合适。
相关推荐
卡梅德生物科技小能手3 分钟前
整合素家族核心靶点解析:CD51(Integrin αv)的分子机制与药物研发技术前瞻
经验分享·深度学习·生活
舒一笑5 分钟前
AI 时代最火的新岗位,不是提示词工程师,而是 Harness 工程师
人工智能·程序员·设计
明月醉窗台7 分钟前
[jetson] AGX Xavier 安装Ubuntu18.04及jetpack4.5
人工智能·算法·nvidia·cuda·jetson
青稞社区.8 分钟前
从最基础的模型出发,深度剖析高性能 VLA 的设计空间
人工智能·agi
夜猫逐梦15 分钟前
【AI】 Claude Code 源码泄露:一场关于安全与学习的风波
人工智能·安全·claude code·源码泄漏
浔川python社15 分钟前
更多人工智能出现,会带来哪些利与弊
人工智能
stereohomology15 分钟前
大语言模型的认知边界 & 在认知边界处的系统性崩溃
人工智能·语言模型·自然语言处理
羊羊小栈18 分钟前
基于「YOLO目标检测 + 多模态AI分析」的智慧农业茶叶病害检测预警系统
人工智能·yolo·目标检测·计算机视觉·毕业设计·大作业
搜狐技术产品小编202319 分钟前
智能代码审查基于大语言模型的自动化代码质量保障平台设计与实践
运维·人工智能·语言模型·自然语言处理·自动化
云烟成雨TD22 分钟前
Spring AI 1.x 系列【26】结构化输出执行流程
java·人工智能·spring