人工智能规模法则的起源、分析、内幕以及对齐方法

上一篇：《人工智能大语言模型起源篇，低秩微调（LoRA）》

（14）Rae 和同事（包括78位合著者！）于2022年发表的《Scaling Language Models: Methods, Analysis & Insights from Training Gopher》，https://arxiv.org/abs/2112.11446

《Gopher》是篇特别好的论文，包含了大量分析来帮助理解大型语言模型（LLM）的训练过程。在这篇论文中，研究人员训练了一个包含2800亿参数、80层的模型，使用了3000亿个标记（tokens）。其中包括一些有趣的架构修改，比如使用RMSNorm（均方根归一化）代替LayerNorm（层归一化）。LayerNorm和RMSNorm通常比BatchNorm更受欢迎，因为它们不依赖于批量大小，也不需要同步，在使用较小批量大小的分布式环境下具有优势。不过，通常认为RMSNorm能稳定更深层架构的训练。

除了像上述的有趣细节外，这篇论文的主要焦点是对不同规模模型任务表现的分析。在152个不同任务上的评估结果显示，增加模型规模对理解、事实核查和有害语言识别等任务的提升最大。不过，涉及逻辑和数学推理的任务，从架构扩展中获益较少。

复制代码

                                              来源：图片来自https://arxiv.org/abs/2112.11446

（15）Hoffmann、Borgeaud、Mensch、Buchatskaya、Cai、Rutherford、de Las Casas、Hendricks、Welbl、Clark、Hennigan、Noland、Millican、van den Driessche、Damoc、Guy、Osindero、Simonyan、Elsen、Rae、Vinyals 和 Sifre 于2022年发表的《Training Compute-Optimal Large Language Models》，https://arxiv.org/abs/2203.15556

这篇论文介绍了70亿参数的Chinchilla模型，它在生成建模任务上超越了流行的175亿参数的GPT-3模型。然而，论文的核心观点是，现代的大型语言模型"明显训练不足"。

论文定义了大语言模型训练的线性扩展规律。例如，尽管Chinchilla的规模只有GPT-3的一半，但它在训练了1.4万亿（而不是仅仅3000亿）标记后，超越了GPT-3。换句话说，训练标记的数量和模型规模一样重要。

来源：https://arxiv.org/abs/2203.15556

（16）Biderman、Schoelkopf、Anthony、Bradley、O'Brien、Hallahan、Khan、Purohit、Prashanth、Raff、Skowron、Sutawika 和 van der Wal 于2023年发表的《Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling》，https://arxiv.org/abs/2304.01373

Pythia是一套开源的大型语言模型（70M到12B参数），用于研究大型语言模型在训练过程中如何演变。

它的架构类似于GPT-3，但包括了一些改进，例如，Flash Attention（类似LLaMA）和旋转位置嵌入（类似PaLM）。Pythia使用The Pile数据集（825GB）进行训练，训练了300B标记（在常规的PILE上约训练了1个epoch，在去重的PILE上训练了约1.5个epoch）。

复制代码

                              pytaiya 模型套件来自 https://arxiv.org/abs/2304.01373。

Pythia研究的主要发现如下：

在重复数据上训练（由于大型语言模型的训练方式，这意味着训练超过一个epoch）不会对性能产生正面或负面影响。
训练顺序不会影响记忆效果。这很遗憾，因为如果情况相反，我们可以通过重新排序训练数据来缓解不希望的逐字记忆问题。
预训练的词频会影响任务性能。例如，较常见的词汇通常会提高少样本准确率。
将批量大小加倍，可以将训练时间减少一半，但不会影响收敛性。

对齐------引导大型语言模型朝向预期目标和利益

近年来，我们看到许多相对强大的大型语言模型，它们可以生成真实的文本（比如GPT-3和Chinchilla等）。似乎我们在使用常见的预训练范式上已经达到了瓶颈。

为了让语言模型更有帮助，并减少错误信息和有害语言，研究人员设计了额外的训练范式来微调预训练的基础模型。

(17) 《训练语言模型以遵循指令并结合人类反馈》（2022年），作者：Ouyang、Wu、Jiang、Almeida、Wainwright、Mishkin、Zhang、Agarwal、Slama、Ray、Schulman、Hilton、Kelton、Miller、Simens、Askell、Welinder、Christiano、Leike、Lowe，网址：https://arxiv.org/abs/2203.02155。

在这篇所谓的InstructGPT论文中，研究人员使用了一个带有人类在环的强化学习机制（RLHF）。他们从一个预训练的GPT-3基础模型开始，使用人类生成的提示-回应对进行监督学习，进一步微调模型（步骤1）。接下来，他们让人类对模型输出进行排名，以训练一个奖励模型（步骤2）。最后，他们使用奖励模型，通过近端策略优化（PPO）强化学习更新预训练并已微调的GPT-3模型（步骤3）。

顺便提一下，这篇论文也被认为是描述ChatGPT背后思想的论文------根据最近的传闻，ChatGPT是InstructGPT的扩展版，已经在更大的数据集上进行了微调。

复制代码

                                              来源：https://arxiv.org/abs/2203.02155