OctoThinker 通过改进 Llama 来支持强化学习，展示了中间学习的威力

概述

本文是一项研究，旨在强调中期训练（mid-training）在使 Llama 等一般基础模型通过强化学习（RL）获得高级推理能力方面的有效性。我们特别关注了基于 Qwen 的模型和基于 Llama 的模型在 RL 扩展行为上的差异，探讨了造成这种差异的原因，并提出了提高 Llama 模型 RL 性能的学习策略。

研究的重点是一种名为 "稳定-然后衰退 "的两阶段中期训练策略。第一阶段通过稳定学习培养稳健的推理能力，而第二阶段则使用不同类型的数据（短思维过程、长思维过程及其混合物）生成多分支（分支）模型。

因此，这套名为 OctoThinker 的新模型的性能可与 Qwen2.5 等 RL 友好型模型相媲美，并表明 RL 扩展甚至对 Llama 系列也是可行的。我们还建立并发布了一个大型数学推理语料库--MegaMath-Web-Pro-Max，为今后的研究奠定了基础。

建议的方法

我们提出了一种两阶段的中期训练策略--"稳定-衰减"（Stable-then-Decay），用于将不适合 RL 的模型（如 Llama）转化为 RL 可扩展的基础模型。

在第一阶段，即 "稳定 "阶段，使用 200B 个高质量数学数据（如 MegaMath-Web-Pro-Max）以恒定的学习率进行稳定的预训练。这一阶段是模型基本推理能力和数学知识的基础。

第二阶段为 "衰减 "阶段，学习速度逐渐减慢，并输入不同性质的数据（如短思维链、长思维链以及两者的混合），从而使模型的性质发生变化，并培养出多种推理风格。这一过程被命名为 "章鱼思维"，因为它像章鱼的多臂一样，向多个方向展开。

此外，在这一过程中，还对质量保证格式数据和指令跟踪数据的比例和组合进行了精细控制，并详细评估了每种数据的影响。此外，还设计了反应时长控制调度程序和提示模板，以稳定 RL 训练。

实验

实验以 Llama 和 Qwen 作为比较对象，以确定学习行为和 RL 性能的差异。初步观察结果表明，Qwen 模型在逐渐增加答案长度的过程中表现出稳定的性能提升，而 Llama 模型则表现出异常的学习行为，例如在过程中一直迭代到答案达到最大长度（4096 个字节）。

为了解决这个问题，作者对 Llama 采用了上述两阶段的中期训练。在第一阶段，在高质量数据（主要是 MegaMath-Web-Pro-Max）上进行了 200B 标记的稳定训练，然后在三种数据配置上进行了分支训练：短 CoT、长 CoT 和混合。

然后，在相同条件下对每个模型进行 RL 训练，并在 14 个数学推理基准测试中进行性能评估，包括 MATH500、GSM8K、OlympiadBench 和 AMC23。结果表明，OctoThinker 的每个分支模型的性能都比原始 Llama 高出 10-20%，尤其是在 "长 "分支中，其性能可与 Qwen2.5 相媲美。

通过这种方式，量化了中期训练策略对 RL 性能的影响，并证明了在 Llama 系列中可以实现高性能的 RL 适应。