论文略读:Prefix-Tuning: Optimizing Continuous Prompts for Generation

2021 ACL

  • 固定预训练LM,为LM添加可训练,任务特定的前缀
    • 这样就可以为不同任务保存不同的前缀
    • 这种前缀可以看成连续可微的soft prompt,相比于离散的token,更好优化,效果更好
  • 训练的时候只需要更新prefix部分的参数,固定LM部分的参数即可
  • 对于自回归模型,在句子前面添加前缀,得到 z = [PREFIX; x; y]
  • 对于encoder-decoder模型:Encoder和Decoder都增加了前缀,得到 z = [PREFIX; x; PREFIX0; y]
    • Encoder端增加前缀是为了引导输入部分的编码
    • Decoder 端增加前缀是为了引导后续token的生成
    • Prefix-tuning略优于Infix-tuning
      • Infix-tuning形式为 [x; INFIX; y]
      • Prefix-tuning形式为 [PREFIX; x; y]
  • 直接学习参数效果不好,需要使用MLP对Pθ进行reparameter修正
    • Pθ[i,:] = MLP(Pθ'[i,:])
相关推荐
Hcoco_me7 分钟前
YOLO入门教程(番外):卷积神经网络—图像卷积
深度学习·yolo·cnn
用户51914958484512 分钟前
网络安全工具与社区讨论月报
人工智能·aigc
技术闲聊DD24 分钟前
深度学习(1)-利用Pytorch2结合U-Net大模型实现图像降噪
pytorch·深度学习·手写体识别·u-net模型
用户5191495848451 小时前
AWS Direct Connect在菲律宾马卡蒂市推出100G扩展服务
人工智能·aigc
zzywxc7871 小时前
AI工具应用全解析:智能编码、数据标注与模型训练的协同实践
人工智能·算法·信息可视化·自动化·ai编程
CareyWYR1 小时前
每周AI论文速递(250929-251003)
人工智能
da_vinci_x2 小时前
设计稿秒出“热力图”:AI预测式可用性测试工作流,上线前洞察用户行为
前端·人工智能·ui·设计模式·可用性测试·ux·设计师
zezexihaha2 小时前
2025 AI 落地全景:从技术热潮到产业重构
人工智能·重构
zhangfeng11332 小时前
geo Counts 数据 ,机器学习 模型的外部验证 ROC外部验证数据处理流程
人工智能·机器学习·r语言·生物信息
yueyuebaobaoxinx2 小时前
从 “手工作坊” 到 “智能工厂”:2025 年 AI 原生应用重构内容创作产业
人工智能·重构