摘要

大型语言模型（LLM）为通用人工智能的发展制定了蓝图。它的主要目标是作为一个以人为本（乐于助人、诚实无害）的助手。与人类保持一致具有至关重要的意义，人类反馈强化学习（RLHF）成为支撑这一追求的关键技术范式。目前的技术路线通常包括衡量人类偏好的奖励模型、优化政策模型输出的近端策略优化（PPO）以及提高逐步推理能力的过程监督。然而，由于奖励设计、环境交互和代理训练的挑战，再加上大型语言模型的巨大试错成本，人工智能研究人员在激励LLM的技术对齐和安全着陆方面存在重大障碍。RLHF的稳定训练仍然是一个谜。

在第一份报告中，我们剖析了RLHF的框架，重新评估了PPO的内部工作，并探讨了组成PPO算法的部分如何影响策略代理训练。我们确定策略约束是PPO算法有效实现的关键因素。因此，我们探索了PPO算法的高级版本PPO max，以有效地提高策略模型的训练稳定性。基于我们的主要结果，我们与SFT模型和ChatGPT进行了RLHF能力的全面分析。除了额外的定性结果外，我们甚至发现，通过我们的算法成功训练的LLM通常可以更好地理解查询的深层含义，其响应更能直接击中人们的灵魂。

开源实现的缺乏对LLM一致性的调查提出了重大挑战。因此，我们迫切希望发布技术报告、奖励模型和PPO代码，旨在为LLM的发展做出适度贡献。

1 引言

2 相关工作

3 人类反馈的强化学习

4 有益和无害的奖励模型

5 PPO的探索

6 评估和讨论

局限性

探索RLHF确实是一个有价值但孤独的方向，我们很高兴实验室的核心骨干能够坚定地探索一个不确定的方向。此外，在过去的几个月里，每个人都充满了激情和动力。RLHF不仅允许模型实现人与人之间的一致性，而且似乎可以使每个人的意愿一致。

千里之行始于足下。尽管我们已经迈出了RLHF的第一步，但由于时间和资源的限制，这项工作仍有以下限制：
缩放定律 。虽然我们的研究主要集中在70亿参数的模型上，但我们尚未研究模型大小和数据规模对RLHF性能的影响。
奖励模型 。我们的实验是基于公开的英语人类偏好数据集和少量自建的中文数据。我们所掌握的数据的质量和数量可以说不足以对奖励模型进行全面评估。
评估指标 。我们的评估标准在很大程度上依赖于手动评估和GPT-4自动评估。我们没有利用大量可用的基准和NLP任务来对我们的模型进行详细评估。
绩效指标。我们在PPO阶段的重点是实现稳定性，而不是提高最终性能。虽然稳定至关重要，但它并不一定能保证结果的改善。此外，奖励分数不能可靠地用作预测训练阶段期间RLHF表现的指标。这意味着需要在训练阶段寻求一个更合适的绩效指标。