论文略读:Prefix-Tuning: Optimizing Continuous Prompts for Generation

2021 ACL

  • 固定预训练LM,为LM添加可训练,任务特定的前缀
    • 这样就可以为不同任务保存不同的前缀
    • 这种前缀可以看成连续可微的soft prompt,相比于离散的token,更好优化,效果更好
  • 训练的时候只需要更新prefix部分的参数,固定LM部分的参数即可
  • 对于自回归模型,在句子前面添加前缀,得到 z = [PREFIX; x; y]
  • 对于encoder-decoder模型:Encoder和Decoder都增加了前缀,得到 z = [PREFIX; x; PREFIX0; y]
    • Encoder端增加前缀是为了引导输入部分的编码
    • Decoder 端增加前缀是为了引导后续token的生成
    • Prefix-tuning略优于Infix-tuning
      • Infix-tuning形式为 [x; INFIX; y]
      • Prefix-tuning形式为 [PREFIX; x; y]
  • 直接学习参数效果不好,需要使用MLP对Pθ进行reparameter修正
    • Pθ[i,:] = MLP(Pθ'[i,:])
相关推荐
kunge20137 分钟前
Claude Code 工作流中的命令实现与自定义指南
人工智能·后端·架构
一切皆是因缘际会14 分钟前
人工智能从对话工具向自主生产力跃迁
人工智能·深度学习·ai·重构
搬砖的小码农_Sky22 分钟前
如何用Nvidia Geforce RTX 5060 Ti显卡进行本地Whisper语音转文字任务?
人工智能·ai·whisper·gpu算力
波动几何26 分钟前
工作流重构方法技能workflow-refactor
人工智能
nix.gnehc27 分钟前
从范式到工程:Plan & Execute + Nacos MCP 构建 AI Agent 的实践之路
人工智能·agent·mcp
工一木子31 分钟前
Browser MCP:让 Cursor 直接操控你的真实浏览器
人工智能
测试员周周34 分钟前
【Appium 系列】第17节-XMind用例转换 — 从思维导图到 YAML
java·服务器·人工智能·单元测试·appium·测试用例·xmind
ujainu37 分钟前
CANN pto-isa:AI 编译为什么需要虚拟指令集
人工智能
AI周红伟40 分钟前
通用业务智能体OpenClaw+Skills+RAG+Agent构建案例实操
大数据·人工智能·windows·百度·copilot
Fleshy数模44 分钟前
基于 CSV 数据分析的课堂教学问题诊断与改进建议系统
数据库·人工智能·大模型·llm