「深度解析」ChatGPT2：无监督多任务学习的语言模型（2019）

以下是我阅读完整篇论文做的个人总结，包含了ChatGPT-2文章的主要内容，可以仅看【论文总结】章节。

自制了一个网页爬虫，被抓取的网页部分来自于社交平台，这些网页由人工进行过滤。最终生成
WebText数据集

，包含45000000个链接。另一部分来自于新闻网站，数据截止2017年12月，数据总量达到8000000篇文章，总共有40GB的文本内容。文章还提到，包括wiki百科等文本也纳入训练数据集，由
全世界各地数百万人参与

来创建和清洗GPT-2训练所用的数据集。

设计了一种
结合单词级表示和字节级表示的混合输入表示

。针对过去的单词级库去除大量重复单词，又引入字节级表示来提升泛化能力。

单词级表示具有先验优势，字节级表示具有泛化优势。

针对GPT1进行了部分修改：

1.将层归一化移动到每个子块的输入。

2.在自注意块之后添加额外的层归一化。

3.改进了初始化方法（初始化时将残差层的权重按1/√N的倍数扩大，N是残差层数量）。

4.词典扩大，分词扩大，指令集扩大，批处理大小扩大。

5.GPT包含117000000参数，
GPT-2包含1542000000参数

。

因为只训练一次，却想观察模型在各个细分领域的表现，因此所有实验都可归类为
零次学习（zero-shot）

。

GPT-2论文的核心内容，可以用一句话进行总结：那就是
在GPT模型的基础上，作者提升了模型大小和训练数据集大小，结果发现GPT-2可以自动适应并完成NLP不同领域的任务目标的学习

。

举个例子来说，我们同时给一个固定的语言模型输入日常对话文本和新闻报道文本的数据集，并且这个数据集足够大、模型足够大、训练时间足够长。则最终产出的模型将会拥有区分日常对话和新闻报道的不同场景的能力，不仅如此模型还将自动拥有一些新的能力，例如编写新闻摘要的能力。

这意味着大型语言模型具有很强的泛化能力，同时也意味着
大型语言模型将会具有潜在自主意识

。随后本文针对作者列举的几个独立领域，陈述了实验结果。

相比于GPT论文中只提到Large Dataset，GPT-2论文中开始出现LLM（Large Language Model）的描述。

原论文地址：https://cdn.openai.com/better-language-models/language_models_are_uns