NLP研究在大模型时代的创新飞跃

在过去的一年里，NLP研究经历了范式转变。一系列大型语言模型（LLMs）验证了规模的不合理有效性。目前，大多数基准测试的最先进水平都由LLMs持有，这些基准测试的微调成本很高，而且在少数行业实验室之外进行预训练也令人望而却步。

在过去，做有影响力的研究的障碍通常是缺乏对富有成效的研究领域的认识和令人信服的假设来探索。相比之下，NLP研究人员今天面临着一个更难克服的约束：计算资源。

在一个运行最先进的模型需要大量昂贵的GPU的时代，没有如此雄厚的财力的学者、博士生和NLP新手还能做什么研究呢？他们应该专注于分析黑盒模型和被大模型从业者忽视的利基主题吗？

在这份时事通讯中，我首先讨论为什么研究的当前状态没有那么黯淡------恰恰相反！然后我会强调五个对该领域很重要且不需要太多计算的研究方向。

研究是周期性的。计算机科学家和ACL终身成就奖获得者Karen Spärck Jones在1994年写道：

那些[...]已经存在了很长时间的人，可以看到旧的想法以新的形式重新出现[...]。但是新的服装做得更好，材料更好，也更合身：所以与其说研究是在兜圈子，不如说是在螺旋上升。

同样，Saphra等人。（2023）强调了当前LLMs时代和统计机器翻译（SMT）时代之间的相似之处，在SMT时代，通过在越来越多的网络数据上训练基于短语的模型语言来展示翻译性能。

最近，随着2013年单词嵌入的出现和2018年预训练LM的出现，我们看到了规模化的成功。在所有情况下，学术研究都没有被抛在脑后，而是继续做出贡献，塑造了下一个时代，从KenLM（Heafield，2011），一个高效的LM库，使学者能够超越行业MT系统，到word2vec替代GloVe（Penington et al.，2014），到在非营利组织和学术界开发的预训练LM，如ELMo（Peter et al.，2018）和ULMFiT（Howard&Ruder，2018）。

这里的主要教训是，虽然大规模计算通常会取得突破性的结果，但它的使用通常效率低下。随着时间的推移，改进的硬件、新技术和新的见解为大幅减少计算提供了机会。

Stephen Merity在他的2018年文章中提供了这一趋势的两个例子，其中方法的第一个实例是过度计算密集型的，而仅仅一年后，计算成本就大大降低了。

我们可以争论为什么同样的趋势可能不适用于这个LLMs的时代。毕竟，新技术也可以扩大规模，正如我们所知，规模最终会占上风。此外，当前闭源模型的趋势使得在它们的基础上构建变得更加困难。

另一方面，新的强大的开源模型仍然定期发布公司也被激励投资开发更小的模型，以降低推理成本。最后，我们开始看到地平线上的规模极限：最近的LLMs正在达到在线文本数据的极限，重复数据最终导致收益递减（Muennighoff et al.，2023）而摩尔定律正在接近其物理极限。

最近已经有一些例子需要使用新方法和见解进行一小部分计算，这表明这一趋势在LLMs时代也适用：

闪存注意力（道等人，2022年）通过巧妙的硬件最优化提供了比标准注意力更大的加速。
参数高效的微调方法（参见我们的EMNLP 2022教程了解概述），包括适配器，如LoRA（胡等人，2021年）和QLoRA（Dettmers等人，2023年）在单个GPU上启用微调LLMs。
Phi-2，上周发布的一种新的2.7B参数大模型，匹配或优于其大小25倍的模型。

在短期内，使用最多计算的最大模型将继续是最有能力的。然而，通过专注于强大的较小模型和计算要求将被研究进展无情侵蚀的领域，仍有很大的创新空间。

虽然大模型项目通常需要大量资源，但重要的是要提醒我们自己，研究不需要为了产生影响而组装成熟的大规模昂贵系统。克里斯·曼宁在他的EMNLP 2023主题演讲中做了一个很好的类比，同样，航空航天工程专业的学生也不需要在学习期间设计新飞机。

有效的方法

与其等待计算成本下降，让LLMs更高效可以产生广泛的影响。当我们谈论效率时，我们经常考虑让模型架构本身更高效。事实上，大多数关于高效Transformer的作品都集中在一个特定的组件上，注意力机制（Tay et al.，2022）。然而，在考虑效率时，考虑整个大模型堆栈是有用的。需要改进的重要组件是：

数据收集和预处理：通过更好的过滤和数据选择提高数据效率。
模型输入：更快、更明智的词元化；通过字符级建模实现更好的词表示
模型架构：更好地标定长程序列；更有效地利用内存
训练：通过更有效的蒸馏、更好的学习率计划和重启、（部分）模型压缩、模型手术等更有效的方法来训练小规模LLMs。
下游任务自适应：改进的参数有效微调；自动提示和思想链设计；模块化方法；改进的RLHF
推断：早期预测；即时压缩；人在环交互
数据注释：循环模型注释；注释的自动仲裁和合并
评估：高效的自动指标；高效的基准

鉴于大模型应用的广泛范围，考虑效率中的'人'部分变得越来越重要：从注释，到学习人类偏好，再到与用户交互，我们是否可以使人类和大模型数据交叉的阶段更加高效和可靠？

稀疏性和低秩逼近是两个一般原则，已经应用于广泛的高效方法中，因此是有用的灵感来源：是否有使用过多参数建模的组件可以近似？是否有涉及多个步骤的计算可以缩短？

在LLMs时代，表明有效方法有效的最明显指标是它降低了相应标定定律的系数（换句话说，降低了斜率），例如在Hoffmann et al.（2022）.

但是我们如何在没有大规模计算的情况下验证标定定律呢？通过在小规模制度中优先考虑实验。

小规模问题

虽然直接将新方法应用于最大的模型通常是令人望而却步的，但在较小的代表性模型上使用它可以作为有用的原型和概念证明。尤其是这些天，人们不应该低估机器学习和自然语言处理社区的速度，它们乐于接受并迅速采用引人注目的新想法。

例如，最近提出的DPO方法（Rafailov等人，2023年）在论文中使用了相对较小规模的实验设置（GPT-2-在IMDb评论等方面进行了微调）。由于代码是开源的，并且与常见的大模型框架兼容，社区成员很快将其应用于Llama和Zephyr等最新模型。

期待看到更多这种操作模式：学术研究人员开发新方法，在小规模验证后，与社区共享，以供进一步实验和标定。

方法也可以在衡量计算和样本效率的基准上开发，并在设计时考虑到计算约束。例子包括BabyLM挑战赛（Warstadt et al.，2023），其重点是在10M和100M的发展合理语料库上进行样本效率预训练，以及语言厨房（Stanićet al.，2023），其比较基于等效计算的模型。

另一个关注小规模越来越有价值的环境是分析和模型理解。通过预训练，模型学习了广泛的自然语言理解能力------但是这些能力到底是在什么条件下出现的还不清楚。

大规模预训练，由于所涉及的大多数组件的巨大性质，大多抵制受控检查。相反，允许探测特定假设的受控小型和合成设置对于了解LLMs如何学习和获得能力将变得越来越重要。此类设置可以包括合成语言，例如bigram数据（Bietti et al.，2023）或"假"英语（K et al.，2020），高度策划和特定领域的数据，以及满足某些（分布）特征的数据；以及更具可解释性的模型，例如小型变形金刚，背包语言模型（Hewitt et al.，2023）和神经加法模型（Agarwal et al.，2021）。

出现的大模型机制仍然知之甚少，包括：

上下文学习："突发性"和语言数据的高度倾斜分布很重要（Chan et al.，2022），但上下文学习能力也可以在训练期间再次消失（Singh et al.，2023）
思维链提示：训练数据中的局部结构很重要（Prystawski et al.，2023），但我们不知道这与自然语言数据有什么关系
跨语言泛化：有限的参数、共享的特殊tokens、共享的位置嵌入和通用的掩蔽策略有助于多语言性（Aretxe et al.，2019；Dufter&Schü😍，2020），但尚不清楚这如何扩展到不同的自然语言数据和类型不同的语言
其他类型的新兴能力（例如参见Schaeffer等人，2023年）

与其尝试将大规模设置变小以减少研究它们所需的计算量，我们还可以专注于由于可用数据的限制而本质上是小规模的设置。

数据受限设置

虽然最大的LLMs在数万亿tokens上进行了预训练，但我们希望将它们应用到的下游应用程序在可获得的数据方面往往更加有限。

许多跨学科领域都是如此，例如NLP for Science， Education，Law，and Medical。在许多这些领域中，很少有高质量的数据可以在线轻松访问。LLMs因此必须与特定领域的策略相结合，以实现最大的影响。参见Li et al.（2023）关于NLP+X应用方向的简要回顾。

另一个众所周知数据有限的领域是多语言。对于许多语言来说，在线文本数据的数量是有限的------但数据可能以其他格式提供，如词典、未数字化书籍、播客和视频。这需要新的策略来收集和创建高质量数据。此外，许多语言和方言更常用于口语而不是书面，这使得多模态模型对服务于这些语言很重要。

当我们达到在线可用数据的极限时，即使是"高资源"语言也将面临数据限制。新的研究需要处理这些限制，而不是假设无限规模的环境。

虽然小样本提示可以无缝应用于许多下游任务，但它不足以教授模型更复杂应用程序的细微差别，并且在其他方面受到限制。或者，参数高效微调可以使用少量计算实现更全面的适应。这种微调------当更新被限制在模型参数的子集时------产生了模块化模型。

鉴于需要掌握的大模型应用领域和能力的多样性，另一个有趣的方向是通过学习理清和组合跨不同领域学到的技能和知识来利用多个模块化"专家"。

然而，如果我们没有可靠的方法来评估它们，这种建模进步就没什么用了。

评价

"[...]基准测试塑造了一个领域，无论好坏。好的基准测试与实际应用保持一致，但坏的基准测试不一致，迫使工程师在做出有助于最终用户的更改或做出仅有助于营销的更改之间做出选择。"------大卫·帕特森；系统基准测试（2020）

2021年，一种普遍的观点是，NLP模型已经超过了测试它们的基准。最近的基准旨在评估LLMs，如HELM（梁等人，2022年）和Super-NaturalInstructions（王等人，2022年）仍然主要由标准的NLP任务组成------其中大部分是句子级的------而其他任务如MMLU（Hendryks等人，2021年）和AGIEval（钟等人，2023年）专注于考试。这些基准并没有反映我们希望应用LLMs的不同任务范围。

另一个需要注意的现象是排行榜污染：在线可用的基准数据可能已包含在LLMs的预训练数据中，这使得评估不可靠。因此，基准应该对评估数据保密或定期更新。

"当你能够衡量你所谈论的东西并用数字来表达它时，你就知道你在讨论什么。但是当你不能衡量它并用数字来表达它时，你的知识就非常贫乏和不令人满意。"------开尔文勋爵

此外，现有的自动度量不适合更复杂的下游应用程序和开放式自然语言生成任务。LLMs可以纳入自动度量（Liu et al.，2023），但必须意识到并减轻它们的偏差。对于复杂的任务，将它们分解为更容易评估的子任务可能会很有用，例如，通过行为测试（Havnova&Ruder，2023）。

随着应用程序变得越来越复杂，即使是传统上被认为是任何数据的黄金标准的人类评估也变得越来越不可靠。分歧可能不再是"注释噪声"的指标，而是不同观点的标志（Pavlick&Kwiatkowski，2019）。对于专业应用程序，只有领域专家可能有足够的资格提供准确的反馈。因此，利用和聚合来自不同背景的不同注释者的反馈比以往任何时候都更加重要。

推理

推理需要使用逻辑从新的和现有的信息中得出结论，以得出结论。随着LLMs展示出令人惊讶的算术和逻辑推理能力，推理再次受到关注，并在NeurIPS 2023论文中得到充分体现。

鉴于LLMs经常产生幻觉并难以生成可直接执行的代码或计划，使用外部工具或特定领域的小型模型来增强它们是使它们更加健壮的一个有希望的方向。例如，Parsel（Zelikman et al.，2023）将代码生成任务分解为大模型生成的子函数，这些子函数可以使用代码执行模块针对输入-输出约束进行测试。

许多复杂的现实世界应用需要不同形式的推理，因此评估模型在现实场景中的推理能力是一个重要的挑战。鉴于许多现实世界的问题需要权衡不同的选择和偏好，使LLMs能够向用户提供不同的解决方案并将不同的文化背景纳入他们的决策至关重要。Ignat et al.（2023）强调与推理相关的其他有趣的研究方向。

"向月亮射击。即使你错过了，你也会降落在星星中间。"

------诺曼·文森特·皮尔

原文：NLP Research in the Era of LLMs