What Makes Pre-trained Language Models Better Zero-shot Learners?

本文是LLM系列文章,针对《What Makes Pre-trained Language Models Better Zero-shot Learners?》的翻译。

是什么让经过预训练的语言模型更好地成为零样本学习者?

  • 摘要
  • [1 引言](#1 引言)
  • [2 前言](#2 前言)
  • [3 假设](#3 假设)
  • [4 方法](#4 方法)
  • [5 前导性研究](#5 前导性研究)
  • [6 实验](#6 实验)
  • [7 讨论](#7 讨论)
  • [8 结论](#8 结论)
  • [9 局限性](#9 局限性)

摘要

当前在零样本场景中进行提示学习的方法广泛依赖于具有足够的人工注释数据的开发集,以事后选择性能最佳的提示模板。这并不理想,因为在现实世界中具有实际相关性的零样本场景中,没有标记的数据可用。因此,我们提出了一种简单而有效的方法来筛选零样本文本分类中合理的提示模板:困惑选择(Perption)。我们假设语言差异可以用来衡量提示模板的效果,从而开发出一个基于困惑的方案,可以提前预测提示模板的性能。实验表明,我们的方法在现实的零样本设置中提高了预测性能,消除了对任何标记示例的需要。

1 引言

2 前言

3 假设

4 方法

5 前导性研究

6 实验

7 讨论

8 结论

我们开发了困惑选择提示(Perption),这是一种在不使用任何人工注释数据的情况下实现现实世界零样本文本分类的方法。一项试点研究表明,困惑可以有效地衡量模板的功效。实验结果表明,对于英汉数据集,我们的方法可以在不使用开发集的情况下,在二元情感分析和多类分类中提高完成型风格提示学习的零样本性能。进一步的深入分析支持了Perption可以"预见"提示模板的功效的观察结果。

9 局限性

在本研究中,我们主要使用BERT系列模型进行中文文本分类任务。考虑到转换语言模型和预训练范式的相似性,以及第6.3节中讨论的英语数据集的初步结果,我们可能能够将结果外推到其他架构/任务/语言。

例如,Perption可以无缝地应用于仅解码器的模型(例如,GLM、LLaMA),以查看它是否可以提高那些NLG任务的性能。但还需要进一步的调查来验证这些发现在其他模型体系结构、任务和语言上的实用性。在未来,我们预计Perption将应用于不同的NLG任务,如seq2seq信息提取、问答、算术推理、机器翻译甚至多模态任务。

此外,使用Perption可能会加剧预先训练的语言模型的固有局限性。我们怀疑,在预训练期间,模型没有接触到某些文本或概念的情况下,对模板选择的困惑可能会导致较差的性能。在未来,我们希望探索是否可以通过某些无注释的方法来缓解这个问题,例如使用下游数据进行连续的自我监督训练,或者在有限标签信息的少样本设置中扩展我们的方法。

此外,使用困惑作为衡量标准有利于长文本的缺点,这迫使我们设计相同长度的模板。因此,长度不可知的度量可以被认为是一种替代方法。

相关推荐
管二狗赶快去工作!4 分钟前
体系结构论文(五十四):Reliability-Aware Runahead 【22‘ HPCA】
人工智能·神经网络·dnn·体系结构·实时系统
AI绘画君13 分钟前
Stable Diffusion绘画 | AI 图片智能扩充,超越PS扩图的AI扩图功能(附安装包)
人工智能·ai作画·stable diffusion·aigc·ai绘画·ai扩图
AAI机器之心15 分钟前
LLM大模型:开源RAG框架汇总
人工智能·chatgpt·开源·大模型·llm·大语言模型·rag
Evand J36 分钟前
物联网智能设备:未来生活的变革者
人工智能·物联网·智能手机·智能家居·智能手表
HyperAI超神经1 小时前
Meta 首个多模态大模型一键启动!首个多针刺绣数据集上线,含超 30k 张图片
大数据·人工智能·深度学习·机器学习·语言模型·大模型·数据集
sp_fyf_20241 小时前
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-03
人工智能·算法·机器学习·计算机视觉·语言模型·自然语言处理
新缸中之脑1 小时前
10个令人惊叹的AI工具
人工智能
学步_技术1 小时前
自动驾驶系列—线控悬架技术:自动驾驶背后的动力学掌控者
人工智能·机器学习·自动驾驶·线控系统·悬挂系统
Eric.Lee20211 小时前
数据集-目标检测系列- 螃蟹 检测数据集 crab >> DataBall
python·深度学习·算法·目标检测·计算机视觉·数据集·螃蟹检测
DogDaoDao2 小时前
【预备理论知识——2】深度学习:线性代数概述
人工智能·深度学习·线性代数