【论文笔记】Prefix-Tuning: Optimizing Continuous Prompts for Generation

🍎个人主页:小嗷犬的个人主页

🍊个人网站:小嗷犬的技术小站

🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题 : Prefix-Tuning: Optimizing Continuous Prompts for Generation
作者 : Xiang Lisa Li, Percy Liang
发表 : ACL 2021
arXiv : https://arxiv.org/abs/2101.00190

摘要

微调是利用大型预训练语言模型进行下游任务的事实上的方法。

然而,微调会修改所有语言模型参数,因此需要为每个任务存储一个完整副本。

在本文中,我们提出了Prefix-tuning,这是一种轻量级的自然语言生成任务微调替代方案,它保持语言模型参数冻结,并优化一系列连续的任务特定向量,我们称之为Prefix。

Prefix-tuning从语言模型的提示中汲取灵感,允许后续标记将此Prefix视为"虚拟token"。

我们将Prefix-tuning应用于GPT-2进行表格到文本生成,以及应用于BART进行摘要。

我们表明,通过仅修改0.1%的参数,Prefix-tuning在全数据设置中获得了可比的性能,在低数据设置中优于微调,并且更好地推广到训练期间未见过的主题示例。

全量微调(上方)更新所有LM参数(红色Transformer框)并需要为每个任务存储完整模型副本。我们提出Prefix-tuning(下方),冻结LM参数,仅优化Prefix(红色Prefix块)

Prefix-Tuning

实验

性能指标(除TER外,数值越高越好)用于E2E(左侧)、WebNLG(中间)和DART(右侧)的表格到文本生成。

(左)低数据环境中的定性示例。(右)前缀调整(橙色)在低数据机制中优于微调(蓝色),并且需要更少的参数。

XSUM摘要数据集上方法的性能。

XSUM上的外推性能。

XSUM上的外推性能。前缀长度与摘要(左)和表格到文本(右)的性能对比。

内嵌式和插入式的内在评估。

初始化前缀时,使用真实单词的激活效果显著优于随机初始化,尤其是在低数据集环境下。

数据效率曲线:训练集百分比与表格到文本(端到端)性能对比。

相关推荐
程序员陆业聪3 小时前
AI智能体的未来:从语言泛化到交互革命
人工智能
小小程序媛(*^▽^*)3 小时前
第十二届全国社会媒体处理大会笔记
人工智能·笔记·学习·ai
却道天凉_好个秋3 小时前
OpenCV(二):加载图片
人工智能·opencv·计算机视觉
音视频牛哥3 小时前
系统级超低延迟音视频直播模块时代:如何构建可控、可扩展的实时媒体底座
人工智能·音视频·大牛直播sdk·rtsp播放器·rtmp播放器·rtsp服务器·rtmp同屏推流
学無芷境4 小时前
VOCO摘要
人工智能
格林威4 小时前
机器视觉的工业镜头有哪些?能做什么?
人工智能·深度学习·数码相机·算法·计算机视觉·视觉检测·工业镜头
Jolie_Liang4 小时前
保险业多模态数据融合与智能化运营架构:技术演进、应用实践与发展趋势
大数据·人工智能·架构
烽火连城诀4 小时前
人工智能在工程项目进度预测与风险识别中的应用
人工智能·文献综述·如何写文献综述·文献综述模板·文献综述怎么写
程序员陆通5 小时前
OpenAI 2025年度发布会(Dev Day 2025)主要内容
人工智能
kalvin_y_liu5 小时前
.NET+AI: (微家的AI开发框架)什么是内核记忆(Kernel Memory)?
人工智能·.net