Pre-trained Language Models Can be Fully Zero-Shot Learners

本文是LLM系列文章,针对《Pre-trained Language Models Can be Fully Zero-Shot Learners》的翻译。

预训练语言模型可以是完全零样本的学习者

  • 摘要
  • [1 引言](#1 引言)
  • [2 相关工作](#2 相关工作)
  • [3 背景:PLMs基于提示的调整](#3 背景:PLMs基于提示的调整)
  • [4 提出的方法:NPPrompt](#4 提出的方法:NPPrompt)
  • [5 实验](#5 实验)
  • [6 讨论](#6 讨论)
  • [7 结论](#7 结论)
  • 局限性

摘要

在没有标记或额外的未标记数据的情况下,我们如何将预先训练的模型扩展到许多语言理解任务?经过预训练的语言模型(PLM)对于广泛的NLP任务是有效的。然而,现有的方法要么需要对下游标记的数据集进行微调,要么需要手动构建适当的提示。在本文中,我们提出了非参数提示PLM(NPPrompt)来完全理解零样本语言。与以前的方法不同,NPPrompt只使用预先训练的语言模型,不需要任何标记数据或额外的原始语料库来进行进一步的微调,也不依赖于人类来构建一组全面的提示标签词。在不同的NLP任务中,我们将NPPrompt与以前的主要小样本和零样本学习方法进行比较:文本分类、文本蕴涵、相似文本检索、转述和多选问题回答。实验结果表明,我们的NPPrompt在很大程度上优于以前最好的完全零样本方法,在文本分类上的准确率和在GLUE基准上的准确度分别提高了12.8%和15.6%。我们的源代码可在https://github.com/Xuandong Zhao/NPPrompt

1 引言

2 相关工作

3 背景:PLMs基于提示的调整

4 提出的方法:NPPrompt

5 实验

6 讨论

7 结论

在这篇文章中,我们提出了NPPrompt,这是一种新颖而有效的方法,可以通过预先训练的语言模型来实现完全零样本学习。我们使用PLM的初始单词嵌入来自动查找类别名称的相关单词,这使我们能够在没有手动设计或未标记语料库的情况下构建动词化器。实验结果表明,NPPrompt在很大程度上优于以前的零样本方法。

局限性

对于那些没有语义的标签名称,NPPrompt仍然需要几个关键字才能正常工作。此外,本研究仅关注零样本设置。然而,在实际应用中普遍存在的小样本场景中也有潜在的探索途径。NPPrompt是否适用于其他任务,如排名和关系提取,仍不确定,需要进一步调查。设计一种细化方法来联合搜索标签词和模板可能是未来研究的一个很有前途的方向。

相关推荐
鸢想睡觉9 分钟前
【OpenCV基础2】图像运算、水印、加密、摄像头
人工智能·opencv·计算机视觉
是店小二呀11 分钟前
GPUGeek云平台实战:DeepSeek-R1-70B大语言模型一站式部署
人工智能·语言模型·自然语言处理·gpugeek平台
烦恼归林28 分钟前
永磁同步电机高性能控制算法(22)——基于神经网络的转矩脉动抑制算法&为什么低速时的转速波动大?
人工智能·神经网络·电机·电力电子·电机控制·simulink仿真
每天都要写算法(努力版)1 小时前
【神经网络与深度学习】GAN 生成对抗训练模型在实际训练中很容易判别器收敛,生成器发散
深度学习·神经网络·生成对抗网络
猎人everest1 小时前
支持向量机(SVM)详解
人工智能·机器学习·支持向量机
hao_wujing1 小时前
人工智能视角下的安全:可视化如何塑造恶意软件检测
人工智能·安全
kyle~1 小时前
计算机视觉---目标追踪(Object Tracking)概览
人工智能·深度学习·计算机视觉
ModelWhale1 小时前
践行“科学智能”!和鲸打造 AI for Science 专属应用
人工智能·ai4s
白杨SEO营销1 小时前
白杨SEO:不到7天,白杨SEO博客网站百度搜索显示和排名恢复正常!顺带说说上海线下GEO聚会分享和播客红利
人工智能·搜索引擎·百度
ywyy67981 小时前
推客小程序系统开发:全栈式技术解决方案与行业赋能实践
大数据·人工智能·微信小程序·小程序·系统·推客系统·推客小程序