【大模型技术报告】【GPT-2】

语言模型是无监督多任务学习者

Language Models are Unsupervised Multitask Learners

摘要

自然语言处理任务，如问答、机器翻译、阅读理解和摘要生成，传统上通常通过对特定任务数据集进行监督学习来实现。我们证明，当在一个名为WebText、包含数百万网页的新数据集上进行训练时，语言模型在没有明确监督的情况下便开始学习这些任务。当以文档加问题为条件时，该语言模型生成的答案在CoQA数据集上达到了55 F1值------在不使用超过12.7万条训练样本的情况下，其性能与四分之三的基线系统持平或更优。语言模型的容量对于零样本任务迁移的成功至关重要，增加模型容量可在各项任务中以对数线性方式提升性能。我们最大的模型GPT-2是一个拥有15亿参数的Transformer架构模型，在零样本设定下，它在8个已测试的语言建模数据集中的7个上取得了最先进的结果，但对WebText数据集仍欠拟合。模型生成的样本体现了这些进步，能够产出连贯的文本段落。这些发现为构建能够从自然发生的示例中学习任务的语言处理系统指明了一条充满前景的道路。

1.引言

机器学习系统如今通过结合大型数据集、高容量模型与监督学习（Krizhevsky et al., 2012；Sutskever et al., 2014；Amodei et al., 2016），在其所训练的任务上（在期望意义上）表现卓越。然而，这些系统十分脆弱，对数据分布的微小变化（Recht et al., 2018）和任务设定的调整（Kirkpatrick et al., 2017）极为敏感。当前系统更应被描述为狭隘的专家，而非具备全面能力的通才型系统。我们希望朝通用性更强的系统发展，使其能够执行多种任务------最终无需再为每项任务手动创建和标注训练数据集。

当前构建机器学习系统的主流方法是：先收集包含目标任务正确行为示范的训练数据集，随后训练系统模仿这些行为，最后在独立同分布（IID）的保留测试集上评估其性能。这一方法在推进高度专业化模型的发展方面成效显著。然而，图像描述模型（Lake等人，2017）、阅读理解系统（Jia与Liang，2017）以及图像分类器（Alcorn等人，2018）在面对多样化的潜在输入时，常表现出不稳定的行为，这凸显了该方法的某些局限性。

我们怀疑，当前系统普遍缺乏泛化能力的主要原因在于单一领域数据集上的单任务训练模式。要基于现有架构构建鲁棒系统，很可能需要在广泛领域和任务上进行训练与性能评估。近期，学界已提出如GLUE（Wang et al., 2018）和decaNLP（McCann et al., 2018）等若干基准测试，以开启对此方向的研究。

多任务学习（Caruana, 1997）是提升模型通用性能的一种前景广阔的框架。然而，自然语言处理领域中的多任务训练仍处于起步阶段。近期研究仅报告了有限的性能提升（Yogatama 等人，2019），而迄今为止最具雄心的两项研究工作分别仅使用了总计10对和17对（数据集，任务目标）进行训练（McCann 等人，2018；Bowman 等人，2018）。从元学习的视角看，每一对（数据集，任务目标）都可视为从数据集和任务目标的分布中采样的单个训练样本。当前的机器学习系统通常需要数百至数千个样本才能学习到具有良好泛化能力的函数。这表明，利用现有方法实现多任务学习的潜力，可能同样需要大量有效的训练对。若依赖现有技术，通过持续扩大数据集规模和人工设计任务目标来"暴力"达成此目的，将极为困难。这促使我们探索实施多任务学习的其他可能方案。

当前在语言任务中表现最优的系统采用预训练与监督微调相结合的方法。该方法历史悠久，且呈现出向更灵活迁移形式发展的趋势。起初是学习词向量并将其作为任务特定架构的输入（Mikolov等人，2013年；Collobert等人，2011年），随后迁移循环网络的上下文表示（Dai & Le，2015年；Peters等人，2018年），而近期研究表明，任务特定架构已不再必要，迁移大量自注意力模块即可取得良好效果（Radford等人，2018年；Devlin等人，2018年）。

这些方法仍需监督训练才能执行任务。当仅有少量或无监督数据可用时，另一研究方向已证明了语言模型在执行特定任务方面的潜力，例如常识推理（Schwartz等人，2017）和情感分析（Radford等人，2017）。

本文中，我们将这两条研究脉络相连接，并延续了更通用迁移方法的发展趋势。我们证明了语言模型能够在零样本设置下执行下游任务------无需任何参数或架构调整。通过突显语言模型在零样本设置中执行广泛任务的能力，我们证明了该方法具有潜力。根据具体任务的不同，我们获得了前景可观、具备竞争力乃至达到最先进水平的结果。

2.方法

我们方法的核心在于语言建模。语言建模通常被定义为从一组样本（x1,x2,...,xnx_1, x_2, ..., x_nx1,x2,...,xn）中进行无监督分布估计，每个样本由可变长度的符号序列（s1,s2,...,sns_1, s_2, ..., s_ns1,s2,...,sn）组成。由于语言具有自然的顺序结构，通常将符号的联合概率分解为条件概率的乘积（Jelinek & Mercer, 1980）（Bengio et al., 2003）：

p(x)=∏i=1np(sn∣s1,...,sn−1)p(x)=\prod_{i=1}^np(s_n|s_1,...,s_{n-1})p(x)=i=1∏np(sn∣s1,...,sn−1)

该方法允许从p(x)以及任何形式为p(sn−k,...,sn∣s1,...,sn−k−1)p(s_{n−k}, ..., s_n|s_1, ..., s_{n−k−1})p(sn−k,...,sn∣s1,...,sn−k−1)的条件概率分布中进行可处理的采样和估计。近年来，能够计算此类条件概率的模型在表达能力方面取得了显著进步，例如基于自注意力机制的Transformer架构（Vaswani等人，2017）。

学习执行单一任务在概率框架中可表达为估计条件分布 p(输出|输入)。由于通用系统需能执行多种不同任务，即使对于相同输入，它不仅应以输入为条件，还应以待执行任务为条件。即，它应建模 p(输出|输入, 任务)。这一思想在多任务学习与元学习场景中已有多种形式化表述。任务条件化通常在架构层面实现，例如（Kaiser 等人，2017）中采用的任务特定编码器与解码器；或在算法层面实现，例如 MAML（Finn 等人，2017）的内外循环优化框架。但如 McCann 等人（2018）所示例，语言提供了一种灵活方式，可将任务、输入和输出均表述为符号序列。例如，一个翻译训练样本可写作序列（翻译成法语，英语文本，法语文本）；同样，一个阅读理解训练样本可写作（回答问题，文档，问题，答案）。McCann 等人（2018）证明了可以训练单一模型 MQAN，在此类格式的样本上推断并执行多种不同任务。

语言建模原则上也能够学习McCann等人（2018）提出的任务，而无需明确监督哪些符号是需要预测的输出。由于监督目标与非监督目标相同，只是在一个序列子集上进行评估，因此非监督目标的全局最小值也就是监督目标的全局最小值。在这个略显简化的设定中，（Sutskever等人，2015）所讨论的关于将密度估计作为原则性训练目标的顾虑被避开了。问题转而变为我们是否能够在实践中将非监督目标优化至收敛。初步实验证实，足够大的语言模型能够在这种简化设定中进行多任务学习，但其学习速度远慢于显式监督方法。

尽管从上述结构良好的设定跨越到"自然语言的无序状态"是一大步，但Weston（2016）在对话语境中主张，有必要开发能够直接从自然语言中学习的系统，并展示了一个概念验证------通过正向预测教师输出，在没有奖励信号的情况下学习问答任务。尽管对话是一种颇具吸引力的途径，我们担心其限制性过强。互联网包含大量被动可获取的信息，无需交互式沟通。我们的推测是：一个具备足够能力的语言模型将开始学习推断并执行自然语言序列中所展示的任务，以便更好地预测这些序列，无论其获取方式如何。如果语言模型能做到这一点，实际上它就是在执行无监督多任务学习。我们通过在零样本设置下分析语言模型在多种任务上的表现，来检验这一推测是否成立。

2.1. 训练数据集

先前大多数研究仅在单一文本领域（如新闻文章（Jozefowicz等人，2016）、维基百科（Merity等人，2016）或小说书籍（Kiros等人，2015））上训练语言模型。我们的方法主张构建尽可能庞大且多样化的数据集，以便在尽可能广泛的领域和语境中收集任务的自然语言示例。

一个前景广阔、多样化且近乎无限的文本来源是诸如Common Crawl之类的网络爬取数据。尽管这些档案库的规模比当前语言建模数据集大好几个数量级，但其数据质量存在显著问题。Trinh & Le（2018）在其关于常识推理的研究中使用了Common Crawl，但指出有大量文档"其内容大多难以理解"。我们在Common Crawl初期实验中也观察到了类似的数据问题。Trinh & Le (2018)的最佳结果是通过使用Common Crawl的一个小子样本实现的，该子样本仅包含与他们的目标数据集------威诺格拉德模式挑战------最相似的文档。虽然这是一种在特定任务上提升性能的务实方法，但我们希望避免预先对将要执行的任务做出假设。

相反，我们创建了一种新的网络爬取方式，其重点在于文档质量。为实现这一点，我们仅爬取那些经过人工筛选/整理的网页。对完整的网络爬取结果进行人工筛选将极其昂贵，因此作为起点，我们爬取了社交媒体平台Reddit上所有至少获得3点"karma"的外链。这可以被视为一种启发式指标，用以判断其他用户是否认为该链接有趣、具有教育意义或仅仅是有趣。

由此产生的数据集WebText包含了这4500万个链接的文本子集。我们使用Dragnet（Peters & Lecocq, 2013）和Newspaper内容提取器的组合从HTML响应中提取文本。本文呈现的所有结果均使用WebText的初步版本，该版本未包含2017年12月之后创建的链接，经过去重和基于启发式的清洗后，包含略超800万份文档，文本总量达40 GB。我们从WebText中移除了所有维基百科文档，因其作为其他数据集的常见数据源，可能因训练数据与测试评估任务重叠而使分析复杂化。

2.2. 输入表示

通用语言模型(LM)应能计算（并生成）任意字符串的概率。当前大规模语言模型包含诸如小写转换、分词和未登录词处理等预处理步骤，这些步骤限制了模型可处理的字符串空间。虽然将Unicode字符串作为UTF-8字节序列进行处理能够优雅地满足这一要求（如Gillick等人2015年的研究所示），但当前字节级语言模型在十亿词基准测试（Al-Rfou等人，2018）等大规模数据集上的表现仍无法与词级语言模型竞争。我们在尝试用WebText训练标准字节级语言模型时，也观察到了类似的性能差距。

字节对编码（Sennrich 等人，2015）是一种介于字符级与词级语言建模之间的实用折中方案，它能有效调和高频符号序列（采用词级输入）与低频符号序列（采用字符级输入）的处理。尽管其名称为"字节对"编码，但经典的BPE实现通常基于Unicode码位而非字节序列操作。这类实现需要涵盖完整的Unicode符号集才能处理所有Unicode字符串，这将导致基础词表在添加任何多符号词元前就超过13万个，相较于BPE常用3.2万至6.4万规模的词表显得过于庞大。相比之下，字节级BPE仅需256大小的基础词表。然而，由于BPE采用基于频率的贪心启发式方法构建词元词汇表，直接将其应用于字节序列会导致次优合并。我们观察到BPE会生成常见单词（如dog）的多种变体（包括dog.、dog!、dog?等），这造成有限词表容量与模型能力被低效分配。为解决此问题，我们禁止BPE在任何字节序列中跨字符类别进行合并，同时为空格字符设置例外规则------该策略在仅引入最低程度词汇碎片化的前提下，显著提升了压缩效率。

这一输入表征使我们能够将词级语言模型的实证优势与字节级方法的普遍性相结合。由于我们的方法能够为任何Unicode字符串分配概率，这使我们可以评估语言模型在任何数据集上的表现，无需考虑预处理、分词或词汇库规模的限制。

2.3. 模型

我们的语言模型采用基于Transformer（Vaswani等人，2017）的架构。该模型大体遵循OpenAI GPT模型（Radford等人，2018）的设计细节。仅进行少量修改：将层归一化（Ba等，2016）移至每个子模块的输入端，类似于预激活残差网络（He等，2016），并在最终自注意力模块后增加了额外的层归一化。采用了一种改进的初始化方法，该方法考虑了模型深度对残差路径的累积效应。我们将残差层的权重在初始化时按1/√N的比例缩放，其中N为残差层数量。词表扩展至50,257个词元。同时将上下文长度从512增至1024个词元，并采用更大的批次大小（512）。

3.实验

我们以近似对数均匀分布的规模训练并基准测试了四种语言模型。其架构总结于表2。最小模型等同于原始GPT，第二小的模型则等价于BERT的最大规模模型（Devlin等，2018）。我们最大的模型称为GPT-2，其参数量比GPT高出一个数量级以上。每个模型的学习率均经过手动调整，以在WebText数据集中5%的保留样本上获得最佳困惑度。所有模型在WebText上仍存在欠拟合，且随着训练时间增加，保留样本的困惑度至今仍在持续改善。

表2：四种模型规模的架构超参数。

3.1. 语言建模

作为实现零样本任务迁移的初步探索，我们关注于研究WebText语言模型在其核心训练任务------语言建模上如何执行零样本领域迁移。由于我们的模型在字节级别运行，无需进行有损预处理或标记化，因此可以在任何语言模型基准上进行评估。语言建模数据集的结果通常以规范预测单位（通常为字符、字节或单词）的平均负对数概率的缩放或指数化形式呈现。我们通过计算WebText语言模型对数据集的对数概率，再除以规范单位数量来评估相同指标。在众多数据集中，WebText语言模型将面临显著的分布外测试：需要预测高度标准化的文本、标记化痕迹（如断开的标点和缩略形式）、乱序的句子，甚至字符串<年份>。该字符在WebText中极为罕见------在400亿字节中仅出现26次。我们在表3中报告了主要结果，使用了可逆解分词器以尽可能消除此类分词/预处理带来的痕迹。由于这些解分词器具有可逆性，我们仍能计算数据集的对数概率，它们可被视为一种简单的领域自适应形式。我们观察到GPT-2在使用这些解分词器后，困惑度降低了2.5至5。

WebText语言模型在不同领域和数据集间展现出良好的迁移能力，在零样本设置下，其在8个数据集中有7个实现了当前最佳性能的提升。在训练标记仅100万至200万的小型数据集（如宾州树库和WikiText-2）上观察到显著改进。在用于衡量长期依赖关系的数据集（如LAMBADA（Paperno等人，2016）和儿童图书测试（Hill等人，2015））上也取得了大幅提升。然而，在十亿词基准测试（Chelba等人，2013）上，我们的模型仍显著落后于先前研究。这很可能因为该数据集规模最大且进行了最具破坏性的预处理------其句子级乱序处理消除了所有长距离结构。

3.2. 儿童读物测试

儿童图书测试（CBT）（Hill等人，2015）的设立旨在检验语言模型在不同词类上的表现：命名实体、名词、动词和介词。与使用困惑度作为评估指标不同，CBT报告的是在一个自动构建的完形填空测试上的准确率，该任务需要从10个候选词中预测被省略的正确词汇。遵循原论文提出的语言模型方法，我们根据语言模型计算每个候选词及其与句子其余部分的条件概率，并选择概率最高的选项。如图2所示，随着模型规模的增大，性能稳步提升，并在此测试中大幅缩小了与人类表现之间的差距。数据重叠分析显示，CBT测试集中的一本书------鲁德亚德·吉卜林的《丛林之书》------存在于WebText训练集中，因此我们报告在验证集上的结果，该集合无明显重叠。GPT-2在普通名词上取得了93.3%的准确率，在命名实体上达到89.1%的准确率，均为当前最佳水平。测试过程中应用了去标记化处理，以消除CBT数据中宾州树库风格的标记化痕迹。

图2. 基于模型容量的儿童图书测试表现。人类表现数据来自Bajgar等人（2016），而非原论文中低得多的估计值。

3.3. LAMBADA

LAMBADA数据集（Paperno等人，2016）旨在测试系统对文本中长距离依赖关系的建模能力。该任务要求预测句子的最后一个单词，这些句子至少需要50个词元的上下文，人类才能成功预测。GPT-2将困惑度的最佳表现从99.8（Grave等人，2016）提升至8.6，并将语言模型在此测试上的准确率从19%（Dehghani等人，2018）提高到52.66%。对GPT-2错误的分析显示，大多数预测是句子的有效延续，但并非有效的结尾词。这表明语言模型未能充分利用"该词必须是句子结尾"这一额外约束条件。添加停用词过滤器作为此约束的近似实现后，准确率进一步提升至63.24%，将该任务的整体最佳性能提高了4%。此前的最佳方法（Hoang等人，2018）采用了不同的受限预测设置，将模型输出限制在仅出现在上下文中的词汇。对于GPT-2而言，这种限制反而有害，因为19%的答案并不在上下文中。我们使用的是未经预处理的原始数据集版本。

3.4. 维诺格拉德模式挑战

Winograd模式挑战（Levesque等人，2012）旨在通过评估系统化解文本歧义的能力，衡量其进行常识推理的水平。最近，Trinh与Le（2018）利用语言模型在此挑战上取得了显著进展，其方法是通过更高概率预测歧义的消解方案。我们遵循他们的问题构建方式，并在图3中以完整与部分两种评分技术可视化了我们模型的性能。GPT-2将当前最优准确率提升了7%，达到70.70%。由于该数据集规模较小（仅含273个样例），我们建议参阅Trichelair等人（2018）的研究以帮助理解这一结果。

图3. 在威诺格拉德模式挑战中，模型性能随模型容量的变化关系。

3.5. 阅读理解

会话问答数据集（CoQA）由Reddy等人于2018年创建，其中包含来自7个不同领域的文档，以及与文档相关的提问者与回答者之间的自然语言对话。该数据集不仅用于测试阅读理解能力，也用于评估模型回答依赖于对话历史的问题（例如"为什么？"）的能力。

基于文档、相关对话历史和结尾标记A进行GPT-2贪婪解码时，在开发集上达到55的F1分数。在未使用基线系统训练所需的12.7万条人工收集问答对的情况下，该表现与四分之三基线系统的性能持平或更优。基于BERT的监督式最优系统（Devlin等人，2018），该系统已接近人类在F1分数上89%的表现。尽管GPT-2作为一个未经任何监督训练的系统，其表现令人振奋，但对其答案和错误的某些检查表明，GPT-2经常使用基于简单检索的启发式方法，例如在回答"谁"的问题时，直接使用文档中出现的人名作答。

3.6. 摘要

我们在CNN和每日邮报数据集（Nallapati等人，2016）上测试了GPT-2执行摘要生成的能力。为引导其生成摘要行为，我们在文章后添加文本"TL;DR:"，并使用Top-k随机采样（Fan等人，2018，k=2）生成100个词元，这减少了重复并鼓励生成比贪婪解码更抽象的摘要。我们使用这100个词元中生成的前3个句子作为摘要。虽然生成结果在定性上类似于摘要（如表14所示），但它们往往侧重于文章近期的内容，或混淆具体细节（例如事故涉及多少辆汽车、标志是在帽子还是衬衫上）。在通常报告的ROUGE 1、2、L指标上，生成的摘要仅开始接近经典神经基线的性能，且仅略优于从文章中随机选择3个句子的方法。当移除任务提示时，GPT-2在综合指标上的性能下降了6.4分，这证明了用自然语言激发语言模型执行特定任务的能力。

3.7. 翻译

我们测试了GPT-2是否已经开始学习如何进行语言间翻译。为了帮助模型推断出这是指定任务，我们为语言模型设置了以下格式的示例对上下文：英语句子 = 法语句子，并在给出最终提示"英语句子 ="后，采用贪婪解码方式从模型中进行采样，并将生成的首个句子作为翻译结果。在WMT-14英法测试集上，GPT-2取得了5 BLEU分，该结果略逊于采用无监督词语翻译研究中推演出的双语词典进行逐词替换的基线方法。在WMT-14法语-英语测试集上，GPT-2能够利用其强大的英语语言模型实现显著更优的性能，获得11.5 BLEU分数。该表现优于（Artetxe等人，2017）和（Lample等人，2017）提出的若干无监督机器翻译基线方法，但仍远低于当前最佳无监督机器翻译方法（Artetxe等人，2019）33.5 BLEU的分数。这一任务的表现令我们感到意外，因为在数据过滤阶段，我们已刻意从WebText中移除了非英语网页。为验证此结果，我们对WebText运行了字节级语言检测器2，仅检测出10MB法语数据，这比以往无监督机器翻译研究中常用的单语法语语料库规模小约500倍。

3.8. 问答

检测语言模型所含信息的一种潜在方法是评估其生成事实类问题正确答案的频率。先前在参数存储全部信息的神经系统中对此类行为展示（如Vinyals和Le于2015年提出的神经对话模型）多呈现定性结果，这是由于缺乏高质量评估数据集所致。近期引入的Natural Questions数据集（Kwiatkowski等人，2019）为更定量化测试提供了有价值的资源。与翻译任务类似，通过在语言模型的上下文中注入示例问答对，有助于模型推断数据集的短答案风格。在以SQUAD等阅读理解数据集常用的精确匹配指标评估时，GPT-2能正确回答4.1%的问题。作为参照点，最小模型的准确率未超越极其简单的基线方法（该方法仅返回每类问题中最常见答案，如人物、事件、地点等）1.0%的准确率。GPT-2正确回答问题的数量是其5.3倍，这表明模型容量至今仍是导致神经系统在此类任务中表现欠佳的主要因素。GPT-2为其生成答案分配的概率校准良好，在其置信度最高的前1%问题上准确率达到63.1%。表5展示了GPT-2在开发集问题上置信度最高的30个答案。GPT-2的表现仍远逊于采用信息检索与抽取式文档问答混合技术的开放域问答系统，后者的准确率通常在30%至50%之间（Alberti等人，2019）。

表5. GPT-2在Natural Questions开发集上生成的置信度最高的30个答案，按GPT-2给出的概率排序。根据第4节所述方法，这些相关问题均未出现在WebText中。

4.泛化与记忆

计算机视觉领域的最新研究表明，常见图像数据集中存在相当比例近似重复的图像。例如CIFAR-10数据集的训练集与测试集之间存在3.3%的重叠图像（Barz & Denzler，2019）。这导致机器学习系统的泛化性能被高估。随着数据集规模扩大，此类问题出现的可能性也随之增加，这意味着WebText数据集很可能存在类似现象。因此，分析测试数据在训练数据中的重复出现比例至关重要。

为研究此问题，我们创建了包含WebText训练集标记中8-gram的布隆过滤器。为提高召回率，字符串被归一化为仅包含小写字母数字单词，并以单个空格作为分隔符。布隆过滤器的构建使误报率上限定为1/10⁸。我们通过生成100万个字符串进一步验证了低误报率，其中未被过滤器检出的数量为零。

这些Bloom过滤器使我们能够计算给定数据集中同样出现在WebText训练集中的8-gram百分比。表6展示了常见语言模型基准测试集的这种重叠分析。常见语言模型数据集的测试集与WebText训练集有1-6%的重叠率，平均重叠率为3.2%。有些令人意外的是，许多数据集与其自身训练分割部分的重叠率更高，平均重叠率达到5.9%。

表6：测试集8-gram与训练集的重叠百分比。

我们的方法以召回率为优化目标，虽然人工检查重叠部分显示了许多常见短语，但也有大量较长匹配是由数据重复导致的。这种现象并非WebText独有。例如，我们发现WikiText-103数据集的测试集中存在一篇文章，该文章同样出现在训练数据集中。由于测试集仅包含60篇文章，其数据重叠率至少为1.6%。更值得关注的是，根据我们的检测流程，1BW数据集与其自身训练集的重叠率接近13.2%。

针对威诺格拉德模式挑战，我们仅发现10条模式在训练集WebText中存在8-gram重叠。其中2条为虚假匹配。在剩余的8条模式中，仅1条模式出现在相关语境中。

在CoQA任务中，新闻领域约15%的文档已存在于WebText语料库中，模型在这些文档上的表现平均提升约3个F1值。CoQA开发集的评估指标报告了五个不同领域的平均性能，我们测得因各领域间数据重叠带来的提升约为0.5-1.0个F1值。然而，由于CoQA的发布时间晚于WebText链接收录的截止日期，WebText中并未包含任何实际的训练问题或答案。

在LAMBADA任务中，平均数据重叠率为1.2%。对于重叠率超过15%的样本，GPT-2的困惑度指标平均提升约2个单位。若排除所有存在重叠的样本重新计算指标，困惑度从8.6略微上升至8.7，准确率从63.2%微降至62.9%。整体指标变化幅度极小，这很可能是因为仅有约1/200的样本存在显著的数据重叠。

总体而言，我们的分析表明，WebText训练数据与特定评估数据集之间的数据重叠为报告结果带来了虽小但持续的正向影响。然而，正如表6所强调的，对于大多数数据集，我们并未发现比标准训练集与测试集之间已有重叠显著更大的重叠程度。理解并量化高度相似文本如何影响性能是一个重要的研究课题。更好的去重技术（例如可扩展的模糊匹配）也将有助于更好地解答这些问题。目前，我们建议将基于n-gram重叠的去重方法作为创建新NLP数据集时划分训练集与测试集的重要验证步骤和合理性检查。

另一种判断WebText语言模型性能是否归因于记忆现象的可能方法，是检测其在自身保留数据集上的表现。如图4所示，WebText训练集与测试集上的表现相似，且随着模型规模增大而同步提升。这表明即使在许多方面，GPT-2在WebText数据集上仍存在欠拟合现象。此外，GPT-2能够撰写关于发现会说话独角兽的新闻报道。表13中提供了相关示例。

图4：基于WebText训练的语言模型性能随模型规模的变化情况。

5.相关工作

本研究的大量工作聚焦于衡量基于更庞大数据集训练的大型语言模型的性能表现。

本研究与Jozefowicz等人（2016）的工作类似，后者在十亿词基准上对基于RNN的语言模型进行了规模化研究。Bajgar等人（2016）亦曾通过利用古登堡计划构建更庞大的训练数据集以补充标准训练数据，从而提升了儿童图书测试的表现。Hestness等人（2017）则深入分析了不同深度学习模型的性能如何随模型容量与数据集规模的变化而改变。我们的实验虽然在各项任务中表现出更大的波动性，但表明类似趋势在目标的子任务中依然存在，并持续延伸至10亿以上参数规模的研究范畴。

生成模型中有趣的学习功能此前已有记载，例如循环神经网络语言模型中的单元能够执行行宽跟踪及引文/评论检测（Karpathy et al., 2015）。对我们的研究更具启发性的是Liu等人（2018）的发现：一个训练用于生成维基百科文章的模型同时学会了在不同语言间转换名称。先前研究已探索过过滤和构建大规模网页文本语料库的替代方案，例如iWeb语料库（Davies, 2018）。

在语言任务的预训练方法方面已有大量研究工作。除引言中提及的方法外，GloVe（Pennington等人，2014）将词向量表示学习扩展至整个Common Crawl语料库。文本深度表示学习早期具有影响力的工作是Skip-thought向量（Kiros等人，2015）。McCann等人（2017）探索了从机器翻译模型衍生的表示方法的应用；Howard与Ruder（2018）改进了（Dai与Le，2015）提出的基于RNN的微调方法。（Conneau等人，2017a）研究了通过自然语言推理模型学习到的表示的迁移性能，（Subramanian等人，2018）探索了大规模多任务训练。（Ramachandran等人，2016）证明了序列到序列模型通过使用预训练语言模型作为编码器和解码器进行初始化能获得更好效果。近期研究进一步表明，经过微调的LM预训练对复杂生成任务（如闲聊对话及基于对话的问答系统）同样具有助益（Wolf等人，2019；Dinan等人，2018）。

6.讨论

大量研究致力于分析有监督与无监督预训练方法所获得的表征，包括学习其特性（Hill等人，2016年）、理解其内涵（Levy与Goldberg，2014年）以及批判性评估其效果（Wieting与Kiela，2019年）。我们的研究结果表明，无监督任务学习是另一个值得探索的前沿方向。这些发现或许有助于解释预训练技术在众多下游自然语言处理任务中广泛成功的原因：我们的研究表明，在极限情况下，此类预训练技术能够开始直接学习执行任务，而无需有监督的适应或调整。

在阅读理解任务上，GPT-2在零样本设定下的表现可与有监督基线模型媲美。然而在其他任务（如摘要生成）中，尽管模型在定性层面能够执行任务，但根据量化指标衡量，其性能仍处于初级阶段。尽管这一研究成果具有启示意义，但在实际应用层面，GPT-2的零样本性能仍远未达到可用标准。

我们系统评估了WebText语言模型在多项经典自然语言处理任务上的零样本性能，但仍有大量待评估任务领域。毫无疑问，在许多实际任务中GPT-2的表现仍仅处于随机水平。即使在我们已评估的常见任务（如问答和翻译）中，语言模型也仅在具备足够容量时才能开始超越简单基线。

虽然零样本性能确立了GPT-2在多任务上的潜在性能基线，但经过微调后的性能上限仍不明确。在某些任务中，GPT-2完全抽象的生成式输出与当前在多项问答及阅读理解数据集中保持最先进水平的、基于抽取式指针网络（Vinyals等人，2015年）的输出存在显著差异。鉴于GPT模型先前微调取得的成功，我们计划在decaNLP和GLUE等基准上进行微调研究------特别是考虑到目前尚不确定GPT-2新增的训练数据与模型容量是否足以克服BERT（Devlin等人，2018年）所揭示的单向表征效率局限。

7.结论

当大型语言模型在足够庞大且多样化的数据集上进行训练时，其能够在多个领域和数据集上表现出色。GPT-2在8个经过测试的语言建模数据集中，以零样本方式在7个数据集上达到了领先性能。该模型在零样本设置下能够执行的任务多样性表明，以最大化高度多样化文本语料库似然性为目标而训练的高容量模型，开始学会在无需显式监督的情况下执行数量惊人的任务。