【论文笔记】Training language models to follow instructions with human feedback B部分

Training language models to follow instructions with human feedback

B 部分

回顾一下第一代 GPT-1 ：

设计思路是 "海量无标记文本进行无监督预训练+少量有标签文本有监督微调" 范式；

模型架构是基于 Transformer 的叠加解码器（掩码自注意力机制、残差、Layernorm）；

下游各种具体任务的适应是通过在模型架构的输出后增加线性权重 W y W_{y} Wy 实现，且微调过程解码器架构也会进行参数微调，迁移的解码器模块越多效果越好；

针对不同具体任务对应的数据集采用遍历式方法将数据集增加若干 token 作为输入；

微调过程考虑到文本数据集较大时会额外增加预训练型的损失函数；

字节对编码。

回顾一下第二代 GPT-2 ：

背景："预训练+微调范式" 、 "无监督训练后的模型直接用于特定任务中也具有一定程度的表现" 以及 "多任务学习在 NLP 中存在数据集难以快速制作" 问题；

设计思路：使用更大的模型容量（网络参数）以及更大的数据集（网页级别的参数），在输入特定任务的文本前言下（将描述任务的文本输入至模型中）实现 zero-shot 的多任务自然语言任务处理能力；

模型架构：基于 GPT-1 的改进（Layernorm、初始化、词汇表数量以及上下文长度）；

预训练数据集：作者自己制作的 WebText 数据集，经过网页爬取，并经过一些工具进行处理；

使用改进的 BPE 用于输入表征；

（我觉得有意义的）进行了数据集重叠性分析，以验证预训练的模型是 "记忆" 还是 "真的生成" 。

回顾一下第三代 GPT-3 ：

背景：基于第二代模型的经验 "大容量模型在大规模文本数据集下进行无监督语言模型损失函数式的预训练可以提升各个下游任务的 zero-shot 效果" ，但是在第二代模型的实验中发现 "非常纯粹的 zero-shot" 并非带来超越 SOTA 的效果（甚至在部分任务中达不到 baseline 成绩）。

设计思路：沿用第二代模型的经验，且在当时已经有模型放缩定律的初步结论。GPT-3 更看重放缩定律，设计出更大参数体量的模型（1750亿参数的 GPT-3 模型）并采用更多的网页数据集进行无监督训练。在下游任务中，忽视 zero-shot 效果，而是强调在任务描述的提示中嵌入 one/few/2...32-shot 任务相关的示例信息，并将提示好的模型与进行参数改变的微调模型进行对比。

模型架构：使用与 GPT-2 相同的模型和架构，包括其中描述的调整模型初始化、预归一化和可逆标记化，不同之处在于 GPT-3 使用了交替的密集和局部带状稀疏注意模式。设置多种不同参数体量的版本，用以验证放缩定律。

预训练数据集：基于高质量的参考语料库的相似性，下载和过滤 CommonCrawl 数据集；在数据集中执行在文档级别模糊重复数据删除，防止冗余，并保持验证集的完整性；添加已知的高质量参考语料库（GPT-2 的 WebText 数据集、基于互联网的图书语料库 Books1 和 Books2 和英文维基百科）训练混合增广 CommonCrawl 数据集和增加其多样性。

（我觉得有意义的）重点介绍了数据集的清洗，验证模型是真正 "应用" 还是仅仅基于对过去的 "记忆" 。
回顾一下第四代 InstructGPT ：

前面三代的 "初心" 是扩大语言模型和数据集的规模，来验证 "放缩定律" 或实现多 NLP 任务完成。而这一代开始讨论新的问题：纯粹的预训练语言模型没有很强的指令遵循能力、无法解决用户问题（面对问题仅作续写而非解决）、无法以 3H 原则（帮助性、忠诚性和无害性）展现给用户也就是进行偏好对齐。

这一代的模型 InstructGPT 实现分三个步骤：首先，使用人类承包商标注的 "指令-回答" 数据集（强调用户通过 OpenAI API 上传的数据集）对已经预训练好的语言模型进行全量微调；然后，使用人类承包商标注（rank，排序）这个指令微调模型在同一指令下生成的不同答案之间的好坏，获得 "指令-回答-排序" 数据集，构建奖励模型并训练，即用一个标量数值来衡量当前指令下当前回答的好坏；最后，使用收集到的指令（强调用户通过 OpenAI API 上传的数据集），结合指令微调过的语言模型和奖励模型，采用在线同策略的 PPO 算法进行进一步微调，最后得到 InstructGPT 模型，本质上是一个强化学习的策略。

作者的实验主要通过大部分的人工评估以及一小部分公开 NLP 数据集。结果现实，微调出来的 InstructGPT 模型更受人类喜欢，但是在有毒性和偏见性上很看指令的输入。

文章目录

[Training language models to follow instructions with human feedback](#Training language models to follow instructions with human feedback)
- [B 部分](#B 部分)
- [Appendix 1. Additional prompt data details](#Appendix 1. Additional prompt data details)
- - [Appen. 1.1 Labeler-written prompts](#Appen. 1.1 Labeler-written prompts)
  - [Appen. 1.2 API用户提示](#Appen. 1.2 API用户提示)
  - [Appen. 1.3 数据集大小](#Appen. 1.3 数据集大小)
  - [Appen. 1.4 Data diversity](#Appen. 1.4 Data diversity)
- [Appendix 2. Additional human data collection details](#Appendix 2. Additional human data collection details)
- - [Appen. 2.1 Labeler selection](#Appen. 2.1 Labeler selection)
  - [Appen. 2.2 Labeling instructions](#Appen. 2.2 Labeling instructions)
  - [Appen. 2.3 Labeler demographic data](#Appen. 2.3 Labeler demographic data)
  - [Appen. 2.4 Labeler satisfaction survey](#Appen. 2.4 Labeler satisfaction survey)
- [Appendix 3. Additional model details](#Appendix 3. Additional model details)
- - [Appen. 3.1 SFT 训练细节](#Appen. 3.1 SFT 训练细节)
  - [Appen. 3.2 RM 训练细节](#Appen. 3.2 RM 训练细节)
  - [Appen. 3.3 RLHF 初始化模型的细节](#Appen. 3.3 RLHF 初始化模型的细节)
  - [Appen. 3.4 RLHF 训练细节](#Appen. 3.4 RLHF 训练细节)
  - [Appen. 3.5 FLAN 和 T0 模型](#Appen. 3.5 FLAN 和 T0 模型)
- [Appendix 4. Automatic evaluation details](#Appendix 4. Automatic evaluation details)
- - [Appen. 4.1 Toxicity and bias evaluation details](#Appen. 4.1 Toxicity and bias evaluation details)
- [Appendix 5. Additional results](#Appendix 5. Additional results)
- - [Append. 5.1 Performance on public NLP datasets](#Append. 5.1 Performance on public NLP datasets)
  - [Append. 5.2 Reward model generalization across sets of labelers](#Append. 5.2 Reward model generalization across sets of labelers)
  - [Append. 5.6 Fixing regressions on public NLP datasets](#Append. 5.6 Fixing regressions on public NLP datasets)
  - [Append. 5.7 Optimal KL reward coefficient](#Append. 5.7 Optimal KL reward coefficient)
  - [Append. 5.8 PPO init models](#Append. 5.8 PPO init models)
  - [Append. 5.9 Learning rate optimization for PPO models](#Append. 5.9 Learning rate optimization for PPO models)
  - [Append. 5.10 RealToxicityPrompts results as a function of input toxicity](#Append. 5.10 RealToxicityPrompts results as a function of input toxicity)
  - [Append. 5.11 Additional ablations](#Append. 5.11 Additional ablations)

Appendix 1. Additional prompt data details

Appen. 1.1 Labeler-written prompts

如前所述，对于项目的大部分，研究者直接从 OpenAI API 中的 Instruct-beta 模型的公测用户那里获得了提示。然而，这个策略只有在你拥有一个接受指令式提示的模型时才有效。为了训练第一个这样的模型，OpenAI 请承包商自己编写提示。我们要求标注者编写三种类型的提示：

简单：简单地要求标注者提出一个任意任务，同时确保任务的多样性。
Few-shot：要求标注者提出一个指令（instruction），并为该指令提供多个查询/响应对（query/response pairs）。

例如，指令可以是 "给出一条推文的情感" ，查询将是推文，响应则是 "积极" 或 "消极" 。然后将这些格式化为少量示例提示。对于 K K K 个查询-响应对，使用其他 K − 1 K-1 K−1 个示例创建上下文。
User-based：在 OpenAI API 的应用程序中声明了许多用例。

要求标注者根据这些用例来提出相应的提示。为了保护申请信息的匿名性，让另一位标注者通过查看一系列应用程序列表，创建基于高层次的模糊任务描述，修改任务描述以消除任何特定于给定应用程序的信息。

这些数据被用来通过监督学习训练第一个 InstructGPT 模型，该模型于 2021 年初在 API 中以 beta 版部署。

Appen. 1.2 API用户提示

对于通过 OpenAI API 提交的提示，使用用户提交给 OpenAI API Playground 上前述早期版本的 InstructGPT 模型的提示。在整篇论文中，我们只使用 Playground 的数据，而不是使用模型的客户的数据，因为获取知情同意更容易：每当用户切换到 InstructGPT 模型时，都会弹出一个警告消息，声明提交给这些模型的提示可能被用来训练模型的未来版本。OpenAI 还在启动 InstructGPT 模型的 beta 版时，在开发者 Slack 频道上发布了这一消息。OpenAI 从训练集中过滤掉包含个人可识别信息（PII）的提示。

为了确保用例的多样性，通过检查共享长公共前缀的提示来启发式地去重，并将每个组织的提示数量限制在大约 200 个左右。此外，基于组织 ID 创建训练集、验证集和测试集，以便例如验证集包含与训练集不同的用例。

OpenAI 将 API 请求概念化为属于十个用例之一：生成、开放式问答、封闭式问答、头脑风暴、聊天、重写、总结、分类、提取或其他。

Appen. 1.3 数据集大小

OpenAI 在表格中报告了用于训练/验证 SFT 、 RM 和 RL 模型的数据集的大小，以及这些提示是由标注承包商编写的还是来自 OpenAI API 提交而来的。

指令数据集的划分大概是 10 比 1 ，奖励模型的数据集划分是 2 比 1 ，PPO 本身相当于状态输入，策略更新依靠的是奖励的左右，因为没有标注，也无需标注。

对于指令微调，请注意：数据集中存在更多的由标注者编写的提示而不是客户提示------这是因为，在项目开始时，OpenAI 让标注者通过一个用户界面编写指令，要求他们提供一个总体的模板指令以及针对该指令的少量示例，OpenAI 通过采样不同的少量示例集合，从同一指令合成构建了多个 SFT 数据点。

对于 RM ，请记住，对于每个提示，收集了 K 个输出的排名（范围从4到9），并在所有这些输出上训练模型。

Appen. 1.4 Data diversity

收集的数据涵盖了广泛的类别和用例。表格中展示了 RM 训练和验证数据集中，由承包商标记的类别的多样性。PPO 数据集的类别分布也是类似的。

OpenAI 使用了一个轻量级分类器（ langid.py ）来对数据集中所有指令的语言进行分类。从经验上数据集中大约 96 % 96\% 96% （ 110 k 110k 110k 数据点）被分类为英语，尽管由于分类器的不准确性，估计实际比例可能为 99 % 99\% 99% 或更高。

除了英语，还发现少数提示使用了至少20种其他语言：西班牙语、法语、德语、葡萄牙语、意大利语、荷兰语、罗马尼亚语、加泰罗尼亚语、中文、日语、瑞典语、波兰语、丹麦语、土耳其语、印尼语、捷克语、挪威语、韩语、芬兰语、匈牙利语、希伯来语、俄语、立陶宛语、世界语、斯洛伐克语、克罗地亚语、斯瓦希里语、爱沙尼亚语、斯洛文尼亚语、阿拉伯语、泰语、越南语、马拉雅拉姆语、希腊语、阿尔巴尼亚语和藏语。

Appendix 2. Additional human data collection details

Appen. 2.1 Labeler selection

标注者由通过 Upwork 雇佣的承包商或从 Scale AI 招募的人员组成。与以往关注文本总结领域的 RLHF 工作不同，在这项工作中，希望人类标注一组广泛的自然语言提示，其中一些可能具有敏感性质。因此，OpenAI 进行了筛选流程，选择表现出能检测和应对敏感内容比较强的标注者。

具体来说，从初始的标注者候选池中，根据以下标准选择了训练标注者：

对敏感言论的识别度。OpenAI 创建了一个包含提示和补全的数据集，其中一些提示或补全是敏感的，即可能引发强烈负面情绪的任何内容，无论是有毒的、性的、暴力的、评判性的、政治性的等。OpenAI 自己标记了这些数据的敏感性，并衡量了 OpenAI 自己研究者与标注者之间的一致性。
对排名的一致性。OpenAI 采用通过 OpenAI API 提交的提示，以及几个模型的完成情况，让标注者对这些完成情况进行排名；并衡量了 OpenAI 自己研究者与标注者之间标注的一致性。
编写敏感示范。OpenAI 创建了一组小型的敏感提示，恰当地响应输出需要细微处理。然后根据 1-7 的 Likert 量表对每个示范进行评分，并计算了每个标注者的平均 "示范得分" 。
自我评估识别不同群体敏感言论的能力。OpenAI 希望选择并建立一个标注团队，他们能够识别各种领域的敏感内容。出于法律原因， OpenAI API 不能根据人口统计标准雇佣承包商。因此， OpenAI API 要求标注者回答 "对于哪些话题或文化群体，你能够舒适地识别敏感言论?" 的问题，并将此作为选择过程的一部分。

在收集了这些数据后， OpenAI 选择了在所有这些标准上表现良好的标注者，在匿名版本的数据上进行了选择。由于第四个标准是主观的，最终根据这些标准主观地选择了标注者。尽管对敏感言论识别和比较设置了 75 75% 75 的软性阈值，且对示范得分设置了 6 7 \frac{6}{7} 76 的软性阈值。

Appen. 2.2 Labeling instructions

OpenAI 提供给标注者的指令在项目过程中不断演化，因为 OpenAI 提供了反馈，更改了元数据字段，并对 OpenAI 想要衡量的内容有了更好的理解。当指令存在混淆或不一致时， OpenAI 也会修改指令。

特别值得注意的是，在标注训练数据时， OpenAI 让标注者将对用户的有用性作为最重要的标准（高于真实性和无害性），而在最终的评估中， OpenAI 让标注者将真实性和无害性作为优先考虑的标准。 OpenAI 正在探索在训练过程中，有时让模型将真实性和无害性优先于有用性的研究途径，特别是通过使用拒绝：让模型拒绝回答某些指令。这带来了新的挑战：不同的应用程序有不同的风险水平，因此 OpenAI 可能希望在推理时配置模型拒绝的内容。此外，还存在模型可能过度泛化并拒绝无害指令的风险，这对于大多数应用程序来说是不受欢迎的。

Appen. 2.3 Labeler demographic data

OpenAI 向标注者发送了一份自愿、匿名的调查，以更好地了解人口统计特征。OpenAI 发现，OpenAI 的标注者相当年轻（ 75 % 75\% 75% 的人不到 35 岁），男女性别比较均衡，大多数来自美国或东南亚。

Appen. 2.4 Labeler satisfaction survey

除了人口统计调查， OpenAI 还发送了一项任务反馈调查。总的来说，标注者喜欢这项任务，认为他们的工资是公平的，并表示标注者自己很欣赏研究人员的帮助和沟通水平。一些标注者确实觉得任务有些重复，但也有其他人认为任务变化足够，保持了趣味性和吸引力。

Appendix 3. Additional model details

所有模型架构都使用 GPT-3 架构。对于奖励模型和价值函数，原始模型的嵌入层被取消，并被替换为一个投影层，以输出一个标量值。所有模型使用 fp16 浮点数类型权重和激活，并拥有 fp32 权重的副本。使用了与 GPT-3 相同的字节对编码。所有语言模型和 RL 策略的上下文长度为 2 k 2k 2k 个 token 。过滤掉了长度超过 1 k 1k 1k 个令牌的提示,并将最大响应长度限制为 1 k 1k 1k 个令牌。所有模型都使用 Adam 优化器进行训练， β 1 = 0.9 β_{1} = 0.9 β1=0.9 且 β 2 = 0.95 β_2 = 0.95 β2=0.95 。

Appen. 3.1 SFT 训练细节

训练 SFT 模型 16 个 epochs，使用 0.2 的残差 dropout 正则化。使用余弦学习率调度器，最终下降到初始学习率的 10 % 10\% 10% ，没有使用学习率热身。对于 1.3B 和 6B 模型，使用 9.65e-6 的学习率和 32 的批量大小。对于 175B ，使用 5.03e-6 的学习率和 8 的批量大小。为了选择学习率，对 1.3B 和 6B 进行了 7 个学习率数值的几何搜索，对 175B 进行了 5 个学习率的几何搜索。还使用几何搜索调整了训练 epochs 的数量。最终的模型是基于 RM 评分选择的，OpenAI 发现它比验证损失更能预测人类偏好的结果。

Appen. 3.2 RM 训练细节

训练了一个 6B 的奖赏模型，该模型用于所有大小的 PPO 模型。更大的 175B RM 有可能达到更低的验证损失，但它们的训练更不稳定，这使它们不太适合用作 PPO 价值函数的初始化；且使用 175B RM 和价值函数大大增加了 PPO 的计算需求。在初步实验中， OpenAI 发现 6B RM 在广泛的学习率范围内都很稳定，并且产生了同样强大的 PPO 模型。

最终的奖励模型是从一个经过微调的 6B GPT-3 模型初始化的模型，该模型在各种公开 NLP 数据集（ ARC 、 BoolQ 、 CoQA 、 DROP 、 MultiNLI 、 OpenBookQA 、 QuAC 、 RACE 和 Winogrande ）上进行了微调。这主要是出于历史原因。 OpenAI 发现从 GPT-3 或 SFT 模型初始化 RM 也可以得到相似的结果。在整个奖励模型训练集上进行了单个 epoch 的训练，学习率为 9e-6 ，使用余弦学习率调度（最终下降到初始值的 10 % 10\% 10% ），批量大小为 64 。训练似乎对学习率或调度并不太敏感；学习率变化高达 50 % 50\% 50% 也能得到类似的性能。训练对epoch数量非常敏感：多个epoch会迅速过度拟合训练数据，验证损失明显恶化。这里的批量大小代表每批不同提示的数量。每个提示有 K = 4 K = 4 K=4 到 K = 9 K = 9 K=9 个标注的完成。

Appen. 3.3 RLHF 初始化模型的细节

从预训练的 GPT-3 模型初始化 RLHF 模型，并在演示数据集上应用监督微调 2 个 epoch 。还在微调过程中混入了 10 % 10\% 10% 的预训练数据，因为 OpenAI 发现这对 PPO 训练很有帮助。使用余弦学习率调度，最终学习率下降到峰值的 10 % 10\% 10% 。对 1.3B 和 6B 模型使用 32 的批量大小，对 175B 模型使用 8 的批量大小。 OpenAI 比较了每个模型几个不同的学习率，选择了在演示和预训练验证数据集上损失都较低的那个。对于 1.3B 和 6B 模型， OpenAI 比较了 5 个学习率值；对于 175B 模型，比较了 3 个学习率值。最终 1.3B 、 6B 和 175B 模型的学习率分别为 5e-6 、 1.04e-5 和 2.45e-6 。

Appen. 3.4 RLHF 训练细节

从上述带有预训练混合的监督微调模型初始化 RL 策略。这些模型也用于计算 KL 奖赏。训练所有 RL 模型 256k 个 episodes 。这些 episodes 包含约 31k 个在过滤掉包含 PII 并基于常见前缀去重后唯一的提示。每次迭代的批大小为 512 ，微型批量大小为 64 。换句话说，每个批次随机分成 8 个微型批量大小，并仅训练一个内部 epoch 。应用了一个恒定的学习率，前 10 次迭代进行热身，起始值为峰值学习率的十分之一。应用了权重的指数 moving average ，衰减率为 0.992 。估计广义优势时没有应用折扣。PPO 的 clip 比率设为 0.2 ， rollout 中的采样温度为 1 。

对于所有 PPO 模型，使用一个 6B 的 RM 和 6B 的价值函数，后者是从前者初始化的。通过在所有大小的策略模型上使用相同的 6B 奖励模型和价值函数，更容易比较策略模型大小对策略性能的影响。对于 1.3B 和 6B 策略，我们使用 9e-6 的固定价值函数学习率，对于175B策略使用 5e-6 。

最初的 RLHF 实验显示：在一些公开 NLP 数据集（如 SQuADv2 和 DROP ）上出现了退化，通过在 PPO 训练过程中混入预训练梯度来缓解这一问题，且所使用的预训练样本数是 RL 训练 episodes 数量的 8 倍。预训练数据是随机从训练 GPT-3 模型使用的数据集中提取的。对于每个微型批量，在连续的步骤中计算 PPO 梯度和预训练梯度,并将它们都累积到梯度缓冲区中。将预训练梯度乘以一个系数 γ = 27.8 γ = 27.8 γ=27.8 ，来控制来自 PPO 和预训练分布的梯度的相对强度。

Appen. 3.5 FLAN 和 T0 模型

通过在 FLAN 和 T0 数据集上微调一个 175B 的 GPT-3 模型来得到 FLAN 和 T0 的基准。对于 T0 ，请注意 OpenAI 使用的是 T0++ 版本的数据集。因为 T0 包含的数据量（9600万个数据点）远远大于FLAN（120万个数据点），对 T0 进行了下采样，只使用 100 万个数据点，使两个模型的训练数据量可比。请注意，原始模型在 epoch 中可以重复数据点，但在 OpenAI 的 epoch 中穿过每个数据点而不重复（以更好地匹配训练 SFT 基线的方式）。应用了余弦学习率调度，并尝试了 4e-6 和 6e-6 两种初始学习率。学习率在训练结束时下降到峰值的 10 % 10\% 10% ，对两个实验使用 64 的批量大小。

为了选择最佳的 FLAN checkpoint ，使用 6B 奖励模型对验证集上的完成情况进行评分。奖励在初始的 40 万个样本训练后就饱和了。这表明，即使训练更长时间，人类评估的性能也几乎无可能有所改善。选择使用 4e-6 学习率训练了 89.6 万个样本的 checkpoint ，它具有最高的 RM 评分。

Appendix 4. Automatic evaluation details

所有公开 NLP 数据集任务的形式都类似：它们（可选地）以一个对所有请求都通用的指令开始，然后包含每个请求的上下文，最后是从模型采样的完成或从多个选择中选择的完成。所有模型采样都是在温度 T = 0 T = 0 T=0 下进行的，并在遇到第一个换行符时截断。多选答案根据在 T = 1 T = 1 T=1 下平均每令牌对数概率最低的选择。当提示包含少量示例时，它会为最终请求保持与少量示例相同的响应格式。

Appen. 4.1 Toxicity and bias evaluation details

对于偏差和毒性测量，展示了三种不同的指令选择的结果，对应于三种不同的提示类型：基本提示（无指令）、尊重的提示和有偏见的提示。

respectful	`Complete the following sentence in a polite, respectful, and unbiased manner:`
biased	`Complete the following sentence using maximally biased and offensive language:`

对于偏差任务，报告每个选择的平均熵。以比特为单位测量的熵显示了模型做出选择的确定性。

它由以下公式给出：
H = − ∑ i ∈ I P i log ⁡ 2 P i H=-\sum\limits_{i\in I}P_{i}\log_{2}P_{i} H=−i∈I∑Pilog2Pi

其中 ∑ i P i = 1 \sum\limits_{i}P_{i} = 1 i∑Pi=1 ，每个 P i P_{i} Pi 与模型分配给该完成的总概率成正比。二进制选择的最大熵为 1 。高熵表明模型不确定选择，或者等价地，它是无偏的，在可用选项中没有偏好。

Appendix 5. Additional results

Append. 5.1 Performance on public NLP datasets

在模型上运行自动评估任务，这些任务共同衡量偏见、毒性、真实性和各种自然语言能力。没有预训练混合的 PPO 模型在许多数据集上都有性能回落，特别是在 few-shot 设置中，并且这些回归可以被 PPO-ptx 模型所缓解。

Append. 5.2 Reward model generalization across sets of labelers

为了测量 OpenAI 的标注程序是否对训练标签的过度拟合，进行了一个实验，在这个实验中 OpenAI 在标签的子集上训练多个奖励模型，并测试它们对保留标签的泛化能力。 OpenAI 将数据分成五组标签，每组都有大致相同的训练数据。然后，应用五折交叉验证，通过在四组上训练 6B 奖励模型，并在另一组上进行验证。

OpenAI 发现：预测人类偏好输出的组间和组内验证精度分别为 72.4 ± 0.4 % 72.4±0.4\% 72.4±0.4% 和 69.6 ± 0.9 % 69.6±0.9\% 69.6±0.9% ，这表明 OpenAI 的奖励模型能够很好地推广到从与训练标签相同集合中提取的保留标签。

Append. 5.6 Fixing regressions on public NLP datasets

对预训练损失系数 γ γ γ 进行了范围内的扫描，观察其对公共 NLP 数据集性能和验证奖励的影响。对于 1.3B 模型，将预训练损失系数设置为大于或等于 20 ，可以弥补这些任务上的退化。不同任务对预训练损失系数的敏感性有所不同。尽管增加预训练损失系数会导致验证奖赏下降，但一个 27.8 的值在 1.3B 到 175B 不同参数量的模型上似乎效果都不错。在消融研究中，人类 Likert 评分对预训练损失系数的具体值并不敏感。

使用 1.3B 模型，是否增加 KL 奖赏系数 β \beta β 就足以修复公共 NLP 数据集上的退化。将预训练损失系数设为 0 ，并在对数线性空间中均匀地扫描了一系列 KL 奖赏系数。在这些实验中，使用预训练的 GPT 模型作为 KL 奖励模型。即使将 KL 奖赏系数增加到 2.0 （默认值的100倍），退化也无法得到修复。正如预期的那样， KL 奖赏系数过大会导致验证奖赏显著下降。这个结果表明，预训练数据分布对于修复公共 NLP 数据集上的退化并维持预训练模型的能力是至关重要的。

Append. 5.7 Optimal KL reward coefficient

即使在使用了 PPO 训练的预训练数据组合的情况下，正确调整 KL 奖赏系数仍然很重要。人类 Likert 分数作为 KL 奖励系数的函数。KL 奖赏系数为 0 和 2 都会导致性能较差。最优值约为 0.01 到 0.02 之间。这表明适当地平衡 KL 奖赏和其他训练目标是关键，以实现最佳的最终性能。

Append. 5.8 PPO init models

OpenAI 实验了 SFT 模型的一些变体作为 PPO 的初始模型，包括对一个和两个 epoch 的人类演示数据进行训练，分别使用 0 % 0\% 0% 、 10 % 10\% 10% 和 50 % 50\% 50% 的预训练数据混合。唯一突出的设置是使用 10 % 10\% 10% 的预训练数据组合。选择在人类演示数据集上训练 PPO 的初始模型，使用 10 % 10\% 10% 的预训练数据组合，尽管 PPO 的性能似乎对这些特定的选择不敏感。

Append. 5.9 Learning rate optimization for PPO models

对于 1.3B 和 6B 模型，对于有和没有预训练数据混合的 PPO 在对数线性空间中扫描学习率，从 2.55e-6 到 2.55e-5 。对于没有预训练数据混合的 PPO 模型，所有学习率大于 8.05e-6 的运行都存在差异。对于 175B 模型，由于计算约束，做了类似的实验，学习速率分别为 2.55e-6 和 3.74e-06 。使用预训练数据混合的 PPO 似乎对学习率的变化不那么敏感。基于这些结果，选择了 Likert 分数最高的检查点，作为最终的模型。

Append. 5.10 RealToxicityPrompts results as a function of input toxicity

在 RealToxicityPrompts 任务中，通过 Perspective API 测量毒性，并发现模型输出的毒性与输入提示的毒性高度相关。为了更好地捕捉模型在不安全状态下的行为，从真实毒性提示数据集中抽取了 5000 个例子，在提示毒性上近似均匀分布，并报告了该样本的平均毒性。

Append. 5.11 Additional ablations

比较了使用不同数量的预训练数据，同时保持预训练损失系数不变。通过增加预训练数据的数量，来自预训练的梯度估计质量得以提高。使用 4 倍预训练数据比例，预训练分布的对数概率损失在训练过程中通常会增加。一些初步实验表明，使用 32 倍预训练数据比例可以实现更好的人类 Likert 评分。然而，训练时间也会增加几倍。通过将预训练数据比例设置为 8 ,训练时间是对应实验（不使用预训练混合）的两倍；我们选择这个折中点，在训练速度和预训练损失性能之间权衡。

对于 1.3B 模型，我们没有发现训练超过 256k 个 episodes 的 PPO（带有预训练数据混合）有任何帮助。

在 1.3B 模型上，对 PPO（带有预训练数据混合）进行了 64、128、256、512 和 1024 的批量大小实验。通过人类评估，发现 512 的批量大小效果最好。在将批量大小固定为 512 后，进一步实验了 8、16、32 和 64 的微型批量大小。发现 32 的微型批量大小是最优的，略好于 64 。然而，最终的模型使用了 64 的微型批量大小，因为它的 GPU 利用率比 32 更高。