大模型系列——推理能力增强 rStar-Math 论文笔记

我们提出rStart-Math来证明小型语言模型SLM可以与OpenAI O1的数学推理能力相媲美甚至超越,而无需从更高级的模型中蒸馏。rStart-Math通过蒙特卡洛树搜索MCTS来实现深度思考,其中一个数学策略SLM执行测试时搜索,该搜索由基于SLM的过程奖励模型引导。

备注:搜索和一般的搜索如何结合?这里的引导指的是不同路径步骤的概率值。这种情况下,单个节点包含了什么? 和下围棋还是有区别的,如何构建这个模型,一个是输出具体位置,一个是输出节点,还是有区别点的。这种方式和普通推理增强又有何相似之处。

围绕这个方向,若能在一周内或最短时间内实现泛化版本,无疑是巨大成功。

rStart-Math提出了3种创新来应对训练两个SLM的挑战:(1)一种新颖的代码增强COT 数据合成方法,该方法执行大量的MCTS展开 ,以生成用于训练策略SLM的逐步验证推理轨迹;(2)一种新颖的过程奖励模型训练方法,该方法避免了朴素的步骤级评分标注,从而产生了更有效地过程偏好模型(PPM);(3)一种自我进化方案,其中策略SLM和PPM从头开始构建,并迭代进化以提高推理能力。

备注:从头构建是什么意思?这里迭代进化提高推理能力

通过4轮自我进化,rStart-Math为747k道数学问题合成了数百万个解决方案,将SLM的数学推理能力提升至最先进水平。在MATCH基准测试中,它将Qwen2.5-Match-7B的准确率从58.8%提升至90%,将Phi3-mini-8B的准确率从41.4%提升至86.4%,超过o1-preview 4.5%和0.9%。在美国数学奥林匹克竞赛AIME种,rStart-Math的平均接触53.3%的问题,排名位列最优秀高中生数学学生的top20%。

表1:rStar-Math通过对64条轨迹进行深度思考,使SLM能够进行前沿数学推理。

备注:从数据来看,1.5B和7B的效果是接近的,基本接近QWQ-32B的效果。说明1.5b潜力巨大,可以匹配preview了。

最近研究表明,LLMS能够解决数学问题,但一次推理中生成完整解决方案的传统方法,类似于系统1通常会产生快速但容易出错的结果。测试时计算建议了一种向系统2式思维的范式转变,它通过更慢、更深入的的思考过程来模拟人类推理。在这个范式中,LLM充当策略模型,生成多个数学推理步骤,然后由另外一个充当奖励模型的LLM进行评估。

选择被认为更可能正确的步骤和解决方案。该过程反复迭,得出最终答案。

在测试时计算范式中,关键在于训练一个强大的策略模型,该模型能够生成有希望的解决方案步骤,以及一个可靠的奖励模型,能够准确地评估这些步骤,而这两者都依赖于高质量的训练数据。不幸的是,众所周知,现成的优质数学推理数据十分稀缺,合成高质量数学数据面临着根本性的挑战

对于策略模型,区分错误推理步骤和正确推理步骤是一个挑战,这使得消除低质量数据变得复杂 。值得注意的是,在数学推理中,最终答案的正确性并不能保证整个推理轨迹的正确性 [Lanham 等人,2023]。不正确的中间步骤会显著降低数据质量。

对于奖励模型,过程奖励建模 (PRM) 显示出巨大的潜力,因为它能够提供对中间步骤的细粒度反馈 [Lightman 等人,2023]。然而,在这方面,训练数据更加稀缺:准确的逐步反馈需要大量的人工标注工作,难以扩展,而那些自动标注尝试由于奖励分数的噪声而显示出有限的收益 [Luo 等人,2024,Wang 等人,2024c,Chen 等人,2024]。

由于上述挑战,现有的基于蒸馏的数据合成方法用于训练策略模型,例如,扩展 GPT4 蒸馏的 CoT 数据 [Tang 等人,2024,Huang 等人,2024],已经显示出边际收益递减,并且无法超越其教师模型的能力;同时,截至目前,训练可靠的数学推理 PRM 仍然是一个悬而未决的问题

在本研究中,我们引入了 rStar-Math,一种自进化型系统 2 风格的推理方法,在具有挑战性的数学竞赛基准测试中取得了最先进的数学推理水平,与 OpenAI o1 相媲美,甚至在某些情况下超越了 OpenAI o1,而模型规模仅为 70 亿。与依赖于更强大的 LLM 进行数据合成的解决方案不同,rStar-Math 利用更小的语言模型 (SLM) 和蒙特卡洛树搜索 (MCTS) 来建立一个自进化过程,迭代地生成更高质量的训练数据。为了实现自进化,rStar-Math 引入了三个关键创新。

首先,我们提出了一种新颖的代码增强 CoT 数据合成方法,该方法通过执行广泛的蒙特卡洛树搜索(MCTS)展开来生成带有自注释 MCTS Q 值的逐步验证推理轨迹 。具体来说,数学问题求解被分解为 MCTS 中的多步生成。在每一步中,充当策略模型的 SLM 会采样候选节点,**每个节点都会生成一步 CoT 和相应的 Python 代码。为了验证生成的质量,只保留具有成功 Python 代码执行的节点,从而减轻中间步骤中的错误。**此外,广泛的 MCTS 展开会根据每个中间步骤的贡献自动为其分配一个 Q 值:对导致正确答案的更多轨迹有贡献的步骤将获得更高的 Q 值,并被认为质量更高。这确保了由 SLM 生成的推理轨迹包含正确、高质量的中间步骤。

其次,提出了一种新方法,该方法训练一个充当过程偏好模型(PPM)的 SLM 来实现所需的 PRM,该模型可以可靠地预测每个数学推理步骤的奖励标签。PPM 利用了这样一个事实,即尽管使用广泛的 MCTS 展开,但 Q 值仍然不够精确,无法对每个推理步骤进行评分 ,但 Q 值可以可靠地区分正(正确)步骤和负(无关/不正确)步骤。因此,该训练方法基于 Q 值为每个步骤构建偏好对,并使用成对排序损失 [Ouyang 等人,2022] 来优化 PPM 对每个推理步骤的评分预测,从而实现可靠的标记。这种方法避免了直接使用 Q 值作为奖励标签的传统方法 [Luo 等人,2024,Chen 等人,2024],这些方法在逐步奖励分配中固有地存在噪声和不精确性。

最终,我们提出了一种四轮自进化方案,逐步从头开始构建前沿策略模型和 PPM。我们首先从公开来源收集了 747k 道数学文字题数据集。在每一轮中,我们使用最新的策略模型和 PPM 执行 MCTS,利用上述两种方法生成质量越来越高的训练数据,以训练更强大的策略模型和 PPM 用于下一轮。每一轮都实现了逐步改进:(1)更强大的策略 SLM,(2)更可靠的 PPM,(3)通过 PPM 增强的 MCTS 生成更好的推理轨迹,以及(4)改进训练数据覆盖范围,以解决更具挑战性的甚至竞赛级别的数学问题

在四个 SLM(1.5B-7B)和七个数学推理任务上进行的大量实验表明,rStar-Math 非常有效。值得注意的是,rStar-Math 提升了所有四个 SLM ,在具有挑战性的数学基准测试中与 OpenAI o1 相匹配甚至超越了它。在 MATH 基准测试中,使用 8 个搜索轨迹,rStar-Math 将 Qwen2.5-Math-7B 从 58.8% 提升到 89.4%,将 Qwen2.5-Math-1.5B 从 51.2% 提升到 87.8%。使用 64 个轨迹,分数上升到 90% 和 88.4%,超过 o1-preview 4.5% 和 2.6%,与 o1-mini 的 90% 相匹配。 在奥林匹克级别的 AIME 2024 中,rStar-Math 平均解决了 53.3%(8/15)的问题,超过 o1-preview 8.7% 和所有其他开源 LLM。我们进一步进行全面实验,以验证逐步验证的推理轨迹优于最先进的数据合成基线,以及 PPM 与结果奖励模型和基于 Q 值的 PRM 相比的有效性。最后,我们展示了 rStar-Math 深度思考的关键发现,包括内在的自省能力和 PPM 对定理应用中间步骤的偏好

备注:文本领域的PPL同样可以用于做评测,只要这些数据没有训练过即可,如何准备和结合?

方法

用于有效系统 2 推理的蒙特卡洛树搜索。我们的目标是训练一个数学策略 SLM 和一个过程奖励模型 (PRM),并将两者集成到蒙特卡洛树搜索 (MCTS) 中 ,用于系统 2 深度思考。选择 MCTS 有两个主要原因。首先,它将复杂的数学问题分解 为更简单的单步生成任务,与其他系统 2 方法(如 Best-of-N [Brown 等人,2024] 或自一致性 [Wang 等人,2023])相比,降低了策略 SLM 的难度,这些方法需要在一次推理中生成完整的解决方案。其次,MCTS 中的逐步生成自然地为两个模型提供了步骤级训练数据 。标准 MCTS 展开会根据每个步骤对最终正确答案的贡献自动为每个步骤分配 Q 值,从而避免了为过程奖励模型训练生成人工步骤级注释的需要。

理想情况下,像 GPT-4 这样的高级 LLM 可以集成到 MCTS 中以生成训练数据。然而,这种方法面临着两个主要挑战。首先,即使是这些强大的模型也难以始终如一地解决难题,例如奥林匹克级别的数学问题。因此,生成的训练数据主要包含更简单的可解问题,限制了其多样性和质量。其次,对每一步的 Q 值进行标注需要大量的 MCTS 展开;树探索不足会导致虚假的 Q 值分配,例如高估次优步骤。鉴于每次展开都涉及多个单步生成,而这些模型的计算成本很高,增加展开次数会显著提高推理成本。

理想情况下,像 GPT-4 这样的高级 LLM 可以集成到 MCTS 中以生成训练数据。然而,这种方法面临着两个主要挑战。首先,即使是这些强大的模型也难以始终如一地解决难题,例如奥林匹克级别的数学问题。因此,生成的训练数据主要包含更简单的可解问题,限制了其多样性和质量 。其次,对每一步的 Q 值进行标注需要大量的 MCTS 展开树探索不足会导致虚假的 Q 值分配,例如高估次优步骤鉴于每次展开都涉及多个单步生成,而这些模型的计算成本很高,增加展开次数会显著提高推理成本。

备注:这一段不太明白

概述。为此,我们探索使用两个 7B SLM(一个策略 SLM 和一个 PRM)来生成更高质量的训练数据,它们较小的规模允许在可访问的硬件(例如,4×40GB A100 GPU)上进行广泛的 MCTS 展开。然而,自我生成数据对 SLM 来说带来了更大的挑战,因为它们的能力较弱。SLM 经常无法生成正确的解决方案,即使最终答案是正确的,中间步骤也往往存在缺陷或质量低下。此外,与 GPT-4 等高级模型相比,SLM 解决的难题更少。

本节介绍我们的方法,如图 1 所示。为了减轻错误和低质量中间步骤的影响,我们引入了一种代码增强型 CoT 合成方法 ,该方法执行广泛的 MCTS 展开以生成经过验证的分步推理轨迹,并用 Q 值进行标注。为了进一步提高 SLM 在挑战性问题上的性能,我们引入了一种四轮自进化方案。在每一轮中,策略 SLM 和奖励模型都会更新到更强大的版本 ,逐步解决更困难的问题并生成更高质量的训练数据。最后,我们提出了一种新颖的流程奖励模型训练方法,该方法消除了对精确的每步奖励标注的需求,从而产生了更有效的流程偏好模型 (PPM)。

3.2 Step-by-Step Verified Reasoning Trajectory

代码增强型CoT生成。先前的蒙特卡洛树搜索(MCTS)方法主要生成自然语言(NL)CoT [Qi等人,2024,Zhang等人,2024a]。然而,大型语言模型(LLM)经常出现幻觉,产生错误或无关的步骤,但仍可能偶然得到正确答案 [Lanham等人,2023]。这些错误步骤难以检测和消除。为了解决这个问题,我们提出了一种新颖的代码执行增强型CoT。如图2所示,策略模型生成一步NL CoT及其相应的Python代码,其中NL CoT嵌入为Python注释。只有成功执行Python代码的生成才会被保留为有效候选。

备注:

(1)如何利用MCTS生成自然语言,也许值得参考。如何将代码和实体提取结合,或者用实体替换代码?

(2)这里的python注释通过llm生成的?

备注:

(1)这个Q值也来自最终结果。如何做到单个字的奖励?

备注:

(1)从第三轮开始才使用真正的PPM值 ,之前的用于训练PPM模型

the effectiveness of the resulting process reward model.

过程奖励模型提供细粒度的步骤级奖励信号,对于解决具有挑战性的数学问题非常理想。然而,获得高质量的步骤级训练数据仍然是一个开放的挑战。现有的方法依赖于人工标注[Lightman等人,2023]或MCTS生成的评分[Zhang等人,2024a,Chen等人,2024]来为每个步骤分配一个分数。这些分数随后用作训练目标,使用诸如MSE损失[Chen等人,2024]或逐点损失[Wang等人,2024c,Luo等人,2024,Zhang等人,2024a]等方法来最小化预测分数和标注分数之间的差异。因此,这些标注的步骤级奖励分数的精度直接决定了生成的流程奖励模型的有效性。

不幸的是,精确的每步评分仍然是一个未解决的挑战。尽管我们广泛的蒙特卡洛树搜索展开提高了 Q 值的可靠性,但精确评估细粒度步骤质量仍然是一个主要障碍。例如,在一组正确的步骤中,很难将它们排名为最佳、次佳或平均,然后分配精确的评分。类似地,在错误的步骤中,区分最差的步骤和中等差的步骤也面临着类似的挑战。即使是专家的人工标注也难以保持一致性,特别是在大规模情况下,导致训练标签中存在固有的噪声。

我们提出了一种新颖的训练方法,通过构建步骤级正负偏好对来训练过程偏好模型 (PPM)。如图 1(b) 所示,我们没有直接使用 Q 值作为奖励标签,而是利用它们从 MCTS 树中选择步骤来构建偏好对。对于每个步骤,我们选择两个具有最高 Q 值的候选作为正步骤,选择两个具有最低 Q 值的候选作为负步骤。关键的是,所选的正步骤必须导致正确的最终答案,而负步骤必须导致错误的答案。对于中间步骤(除了最终答案步骤),正负对共享相同的先前步骤。对于最终答案步骤,由于相同的推理轨迹很少产生不同的最终答案,我们放宽了这一限制。我们选择两个具有最高平均 Q 值的正确轨迹作为正例,选择两个具有最低平均 Q 值的错误轨迹作为负例。遵循 [Ouyang et al., 2022],我们使用标准的 Bradley-Terry 模型定义我们的损失函数,该模型具有成对排序损失:

3.4 自进化深度思考

数学问题集。我们收集了一个包含 747k 道 数学文字题的大型数据集,并附有最终答案的真实标签,主要来自 NuminaMath [Jia LI 和 Polu,2024a] 和 MetaMath [Yu 等人,2023b]。值得注意的是,我们只包含了来自 NuminaMath 的竞赛级别问题(例如,奥林匹克竞赛和 AIME/AMC),因为我们观察到小学级别的题目并不能显著提高 LLM 的复杂数学推理能力 。为了补充有限的竞赛级别问题,我们遵循 [Li 等人,2024] 的方法,使用 GPT-4 基于7.5k 道 MATH 训练集和 3.6k 道 AMC-AIME 训练集中的种子问题来合成新的问题。然而,GPT-4 经常为具有挑战性的种子问题生成不可解的问题或错误的解决方案。为了过滤这些问题,我们提示 GPT-4 为每个问题生成 10 个解决方案,只保留至少有 3 个一致解决方案的那些问题。

备注:数据集还是比较丰富的。gpt-4合成了新问题和解决方案这个是亮点。

推理轨迹集合。我们没有使用 747k 数学数据集中的原始解,而是进行了大量的 MCTS 展开(第 3.2 节)以生成更高质量的分步验证推理轨迹 。在每个自我进化轮次中,我们对每个数学问题执行 16 次展开,这将导致 16 个推理轨迹。然后根据生成的轨迹的正确率对问题进行难度分类:简单(所有解都正确)、中等(正确和错误解的混合)和困难(所有解都不正确)。对于没有正确轨迹的困难问题,会执行额外的 MCTS,进行 16 次展开。之后,所有分步轨迹及其标注的 Q 值将被收集和过滤,以训练策略 SLM 和处理偏好模型。

对策略 SLM 进行监督微调。通过大量实验,我们发现选择高质量的推理轨迹是微调前沿数学 LLM 的关键。虽然 GPT 蒸馏和 Best-of-N 等方法可能会包含低质量或错误的中间步骤,但更有效的方法是确保轨迹中的每一步都具有高质量。为了实现这一点,我们使用每步 Q 值从 MCTS 展开中选择最佳轨迹。具体来说,对于每个数学问题,我们选择在所有导致正确答案的轨迹中,平均 Q 值最高的 top-2 轨迹作为 SFT 训练数据。

备注:SFT不会过拟合或者影响原有数据表现吗? 那做RAG是否不受影响。

训练 PPM。PPM 从微调后的策略模型初始化,其下一个词预测头被一个标量值头替换,该头由一个线性层和一个 tanh 函数组成,以将输出限制在 [-1, 1] 范围内。我们过滤掉所有解轨迹完全正确或完全错误的数学问题。对于结果混合的问题,我们根据 Q 值为每一步选择两个正例和两个负例,这些 Q 值用作训练数据的偏好对。

备注:

(1)替换头后,就能输出分数,-1用来惩罚,为什么过滤掉完全正确?我理解完全正确的样本已经在开始阶段具备了。完全错误的不需要有这种样本。

由于 SLM 的能力较弱,我们执行了四轮 MCTS 深度思考,以逐步生成更高质量的数据,并用更具挑战性的数学问题扩展训练集。

备注:第一轮使用DeepSeek作为策略,生成样本给PPM和策略模型训练。这里策略模型如何训练?

每一轮使用蒙特卡洛树搜索 (MCTS) 生成逐步验证的推理轨迹,然后用于训练新的策略 SLM 和 PPM。新模型随后应用于下一轮,以生成更高质量的训练数据。图 1(c) 和表 2 详细介绍了每一轮用于数据生成的模型,以及训练的策略模型和 PPM 的标识符。接下来,我们将概述每一轮的目标细节和具体改进。

第一轮:引导初始强策略 SLM-r1。为了使 SLM 能够自生成合理良好的训练数据,我们执行引导轮以微调初始强策略模型,记为 SLM-r1。如表 2 所示,我们使用 DeepSeek-Coder-V2-Instruct (236B) 运行 MCTS 来收集 SFT 数据 。在本轮中,由于没有可用的奖励模型,我们使用终端引导注释来获取 Q 值,并将 MCTS 的 rollout 限制为 8 次以提高效率。对于正确的解决方案,选择前两个平均 Q 值最高的轨迹作为 SFT 数据。我们还训练了 PPM-r1,但有限的 rollout 导致 Q 值不可靠,影响了 PPM-r1 的有效性(表 4)。

备注:DeepSeek-Coder-V2-Instruct (236B) 运行 MCTS 来收集 SFT 数据这里如何实现?

第二轮:**训练可靠的 PPM-r2。**在本轮中,将策略模型更新为 7B SLM-r1 后,我们对更多可靠的 Q 值标注进行了广泛的 MCTS 展开,并训练了第一个可靠的奖励模型 PPM-r2。具体来说,我们对每个问题执行了 16 次 MCTS 展开。由此产生的逐步验证推理轨迹在质量和 Q 值精度方面都显示出显著的改进。如表 4 所示,PPM-r2 的效果明显优于引导轮。此外,策略 SLM-r2 也如预期般继续改进(表 3)。

第三轮:PPM增强型蒙特卡洛树搜索(MCTS)显著提高数据质量。利用可靠的PPM-r2,我们在本轮中执行PPM增强型MCTS来生成数据,从而产生质量显著更高的轨迹,涵盖训练集中更多数学和奥林匹克级别的题目(表2)。生成的推理轨迹和自标注Q值随后用于训练新的策略SLM-r3和PPM-r3,两者均显示出显著的改进。

第四轮:解决具有挑战性的数学问题。在第三轮之后,虽然小学和数学问题取得了很高的成功率,但只有 62.16% 的奥林匹克级别问题被包含在训练集中。这并非完全归因于我们 SLM 的推理能力不足,因为许多奥林匹克问题仍然无法被 GPT-4 或 o1 解决。为了提高覆盖率,我们采用了一种直接的策略。对于 16 次 MCTS 展开后仍未解决的问题,我们进行额外的 64 次展开,如果需要,增加到 128 次。我们还使用不同的随机种子进行多次 MCTS 树展开。这将奥林匹克级别问题的成功率提高到了 80.58%。

经过四轮自我进化,747k 道数学题中的 90.25% 已成功纳入训练集,如表 2 所示。在剩余未解决的问题中,很大一部分是合成问题。我们手动检查了 20 道问题的随机样本,发现其中 19 道被错误地标记了错误答案。基于此,我们得出结论,剩余未解决的问题质量较低,因此在第四轮终止自我进化。

评估数据集。我们对 rStar-Math 在各种数学基准上进行了评估。除了广泛使用的 GSM8K [Cobbe 等人,2021] 外,我们还包括来自多个领域的具有挑战性的基准: (i) 竞赛和奥林匹克级别的基准,例如 MATH-500 [Lightman 等人,2023],AIME 2024 [AI-MO,2024a],AMC 2023 [AI-MO,2024b] 和奥林匹克基准 [He 等人,2024]。具体来说,AIME 是旨在挑战美国最优秀高中数学学生的考试,2024 年数据集包含来自 AIME I 和 II 考试的 30 道题;(ii) 来自大学数学 [Tang 等人,2024] 的大学水平数学问题,以及 (iii) 域外数学基准:高考(中国大学入学考试)En 2023 [Liao 等人,2024]。

基础模型和设置。rStar-Math 是一种适用于各种大型语言模型的通用方法。为了展示其有效性和泛化能力,我们使用不同规模的 SLM 作为基础策略模型:Qwen2.5-Math-1.5B [Qwen, 2024b]、Phi3-mini-Instruct (3B) [Microsoft, 2024, Abdin 等人,2024]、Qwen2-Math-7B [Qwen, 2024a] 和 Qwen2.5-Math-7B [Qwen, 2024c]。在这些模型中,Phi3-miniInstruct 是一个通用 SLM,没有专门针对数学推理。

由于 GPU 资源有限,我们仅在 Qwen2.5-Math-7B 上进行了 4 轮自我进化,产生了 4 个进化后的策略 SLM(表 3)和 4 个 PPM(表 4)。对于其他 3 个策略 LLM,我们使用从 Qwen2.5-Math-7B 第 4 轮生成的逐步验证轨迹对其进行微调。本轮的最终 PPM 随后被用作 3 个策略 SLM 的奖励模型。

基准。rStar-Math 是一种系统 2 方法。我们将其与代表系统 1 和系统 2 方法的三种强大基准进行比较:(i)前沿大型语言模型,包括 GPT-4o、最新的 Claude、OpenAI o1-preview 和 o1-mini。我们在 AMC 2023、奥林匹克竞赛基准、大学数学、高考和 GSM8K 上衡量它们的准确性,其他基准的准确性数据取自公开的技术报告 [团队,2024a]。(ii) 开源的优秀推理模型,包括 DeepSeek-Coder-v2-Instruct、Mathstral [团队,2024b]、NuminaMath-72B [Jia LI 和 Polu,2024a] 和 LLaMA3.1 [Dubey 等人,2024],它们代表了当前主流的用于改进大型语言模型数学推理的系统 1 方法。(iii)来自原始模型团队的基模型的系统 1 和系统 2 性能,包括指令版本(例如,Qwen2.5-Math-7B-Instruct)和最佳 N(例如,Qwen2.5-Math-72B-Instruct+Qwen2.5-Math-RM-72B)。值得注意的是,用于三个 Qwen 基模型的奖励模型是一个 72B ORM,明显大于我们的 7B PPM。

评估指标。我们报告所有基线的Pass@1准确率。对于系统2基线,我们使用默认评估设置,例如o1-mini和o1-preview的默认思考时间。对于具有最佳N的Qwen模型,我们重新评估MATH-500、AIME/AMC准确率;其他基准结果来自其技术报告。为了公平比较,rStar-Math运行MCTS生成与Qwen相同数量的解决方案。具体来说,对于AIME/AMC,我们为AIME/AMC生成16条轨迹,为其他基准生成8条轨迹,使用PPM选择最佳解决方案。我们还报告了使用64条轨迹增加测试时间计算的性能,表示为rStar-Math64。

在各种具有挑战性的数学基准测试中取得的成果。表5显示了rStar-Math与最先进的推理模型相比的结果。我们强调了三个关键观察结果:(1)rStar-Math显着提高了SLMs数学推理能力,其性能可与OpenAI o1相媲美或超过OpenAI o1,而模型尺寸却小得多(1.5B-7B)。例如,Qwen2.5-Math-7B在MATH上的准确率最初为58.8%,使用rStar-Math后大幅提升至90.0%,超过了o1-preview和Claude 3.5 Sonnet,同时与o1-mini相当。在大学数学基准测试中,rStar-Math超过o1-mini 2.7%。在AIME 2024中,rStar-Math得分53.3%,仅次于o1-mini,7B模型在AIME I和II中解决了8/15个问题,排名前20%最优秀的高中数学学生。值得注意的是,8个未解决的问题是基于几何的,需要视觉理解,而rStar-Math目前不支持这种能力。(2)尽管使用较小的策略模型(1.5B-7B)和奖励模型(7B),rStar-Math仍然显着优于最先进的系统2基线。与Qwen Best-of-N基线相比,Qwen Best-of-N基线使用相同的基模型(Qwen2-Math-7B,Qwen2.5-Math-1.5B/7B),但奖励模型大10倍(Qwen2.5-Math-RM-72B),rStar-Math始终将所有基模型的推理准确率提高到最先进水平。即使与使用10倍更大的Qwen2.5-Math-72B Instruct策略模型的Best-of-N相比,rStar-Math在所有基准测试中都超过了它,除了GSM8K,使用相同的采样解决方案。(3)除了MATH、GSM8K和AIME等知名基准测试外,这些基准测试可能会过度优化,rStar-Math在其他具有挑战性的数学基准测试中也表现出强大的泛化能力,包括奥林匹克基准测试、大学数学和中国高考数学考试,创造了新的最先进分数。如第3.4节所述,我们的训练集主要来自公共数据集,没有针对这些基准测试进行专门优化。

备注:非数学类的推理能力如何提升? 数据集有哪些,阅读理解测试集吗

自我进化的有效性。表5中令人印象深刻的结果是在经过4轮rStar-Math自我进化深度思考后取得的。表6显示了每一轮的数学推理性能,证明了准确率的持续提高。在第一轮中,主要改进来自将SFT应用于基础模型。第二轮带来了显著的提升,这是由于在MCTS中应用了更强大的PPM,从而释放了系统2深度推理的全部潜力。值得注意的是,从第二轮开始,rStar-Math的性能就超过了GPT-4o。第三轮和第四轮显示出进一步的改进,这是由于通过更好的策略SLM和PPM实现了更强大的系统2推理。

逐步验证推理轨迹的有效性。rStar-Math 生成逐步验证推理轨迹,消除错误的中间步骤,并通过更具挑战性的问题进一步扩展训练集。为了评估其有效性,我们使用第 4 轮生成的数据作为 SFT 训练数据,并将其与三个强大的基线进行比较:(i) GPT 蒸馏,其中包括使用 GPT-4 合成的开源 CoT 解决方案,例如 MetaMath [Yu 等人,2023b],NuminaMath-CoT [Jia LI 和 Polu,2024b];(ii) 来自自我生成的随机采样,使用相同的策略模型(即策略 SLM-r3)随机生成轨迹;(iii) 拒绝采样,从策略模型中随机采样 32 条轨迹,并通过我们训练的 ORM(附录 A.1)对高质量的解决方案进行排名。为了公平起见,我们在基线 (ii) 和 (iii) 中为每个数学问题选择两条正确的轨迹。所有 SFT 实验都使用相同的训练方案。

表7展示了在不同数据集上微调的Qwen2.5-Math-7B的数学推理准确率。我们强调两个观察结果:(i) 使用我们逐步验证的轨迹进行微调显著优于所有其他基线。这主要归功于我们用于代码增强CoT合成的PPM增强MCTS,它在数学解生成过程中提供了更密集的验证。它证明比随机采样(缺乏验证)和拒绝采样更有效,表7:关于我们逐步验证的推理轨迹作为SFT数据集的有效性的消融研究。我们报告了使用不同数据集微调的Qwen2.5-Math-7B的SFT准确率。

其中,ORM 仅提供稀疏验证。(ii) 即使从我们的 SLM 中随机抽取代码增强 CoT 解决方案,其性能也与 GPT-4 合成的 NuminaMath 和 MetaMath 数据集相当或更好。这表明我们的策略 SLM 在经过多轮自我进化后,能够生成高质量的数学解决方案。这些结果表明,我们的方法在不依赖于高级 LLM 蒸馏的情况下,具有自我生成更高质量推理数据的巨大潜力。

备注:如何生成法律数据的更高质量的内容?

PPM 的有效性。我们训练了一个强大的 ORM 和基于 Q 值得分的 PRM (PQM) 进行比较。为了确保公平的评估,我们使用最高质量的训练数据:第 4 轮生成的逐步验证轨迹,其中选定的数学问题与用于 PPM 训练的数学问题相匹配。与 PPM 类似,我们使用步骤级 Q 值来选择每个数学问题的正轨迹和负轨迹。ORM 使用成对排序损失进行训练 [Ouyang 等人,2022],而 PQM 遵循 [Chen 等人,2024,Zhang 等人,2024a] 使用 Q 值作为奖励标签并使用 MSE 损失进行优化。详细的训练设置见附录 A.1。

5 发现与讨论

内在自我反思能力的出现。OpenAI o1 的一个关键突破是其内在自我反思能力。当模型出错时,它能够识别错误并用正确答案进行自我修正 [Noam Brown 和 Lightman,2024]。然而,人们一直发现它在开源 LLM 中基本上无效。社区积极探索了各种方法,包括自我修正 [Huang 等人,2023,Kumar 等人,2024],自我反思 [Renze 和 Guven,2024,Shinn 等人,2024],以明确地训练或提示 LLM 发展这种能力。

在我们的实验中,我们意外地观察到,我们基于蒙特卡洛树搜索 (MCTS) 的深度思考在解决问题时表现出自我反省。如图 4 所示,该模型最初在头三个步骤中使用 SymPy 形式化了一个方程,这将导致错误的答案(左分支)。有趣的是,在第四步(右分支)中,策略模型识别到其早期步骤的质量较低,并避免继续沿着最初的解决问题路径前进。相反,它回溯并使用一种新的、更简单的方法来解决问题,最终得出了正确的答案。附录 A.2 中提供了另一个自我修正的例子。值得注意的是,没有包含任何自我反省训练数据或提示,这表明高级系统 2 推理可以促进内在的自我反省。

备注:这种方案和树形注意力机制是有很大关联的,也许eagle可以用于加速,也可以用于PPM策略奖励。

PPM 形成了系统 2 深度思考中的推理边界。策略模型和奖励模型对于系统 2 深度推理都至关重要。我们的实验表明,一旦策略模型达到一个相当强的能力水平(参见附录 A.1),PPM 就成为性能上限的关键决定因素 。图 5 总结了不同大小的策略模型的准确性,以及奖励模型带来的改进。尽管由于训练策略、数据集和模型规模的不同,Pass@1 准确率存在差异,但奖励模型被证明是系统 2 推理中的主导因素 。例如,**尽管 rStar-Math-7B 的 SFT 准确率低于 Qwen2.5-Math-72B-Instruct,但将其与我们的 7B PPM 配对,使 rStar-Math 能够超越使用 Qwen 72B ORM 的 72B 策略模型。**此外,尽管我们三个策略 SLM 大小的 Pass@1 准确率各不相同,但在应用 PPM 后,最终的推理准确率会收敛。

PPM 斑点定理应用步骤。在解决具有挑战性的数学问题时,识别和应用相关的定理或关键结论通常是成功解决问题的基石 [Xin 等人,2024]。在我们的实验中,我们发现,在 rStar-Math 问题解决过程中,我们的 PPM 有效地识别了策略模型深层思考过程中关键的定理应用中间步骤。这些步骤被预测具有较高的奖励分数,引导策略模型生成正确的解决方案。附录 A.2 提供了 PPM 成功识别关键定理的例子,例如费马小定理 [Weisstein, a]、韦达定理 [Weisstein, b]、算术-几何平均不等式 [amg]、勾股定理 [pyt] 和鞋带定理 [sho] 等。

泛化讨论。rStar-Math 提供了一种通用的方法来改进 LLM 推理,适用于各种领域。首先,rStar-Math 可以泛化到更具挑战性的数学任务,例如定理证明,尽管其目前的重点是由于数据集限制而专注于文字问题。尽管如此,rStar-Math 证明了证明数学命题的潜力。如附录 A.2 所示,它成功地证明了一个涉及费马小定理的奥林匹克级问题,通过其深度推理过程提供了逐步的正确证明。其次,rStar-Math 可以泛化到其他领域,例如代码和常识推理 。值得注意的是,为通用推理合成逐步验证的训练轨迹需要一种机制来提供反馈,以判断给定的轨迹在 MCTS 展开结束时是否达到期望的输出。例如,在代码推理中,这可能涉及设计广泛的测试用例;在一般推理中,可以通过人工标记或与另一个 LLM [Qi 等人,2024] 相互验证来获得反馈。

在本研究中,我们提出了 rStar-Math,一种自我进化的系统 2 深度思考方法,它显著提升了小型语言模型的数学推理能力,在 OpenAI o1 级别的性能上取得了最先进的结果。我们的方法证明了小型语言模型能够为前沿水平的数学推理自生成高质量的训练数据。在四个不同规模的小型语言模型和具有挑战性的数学基准上的大量实验表明了 rStar-Math 的优越性,它在取得领先结果的同时,也超越了现有的数学推理语言模型和最佳 N 基线。我们还揭示了关键发现,包括自我反思的出现以及 PPM 在识别关键中间步骤(例如定理应用步骤)方面的有效性。最后,rStar-Math 可以通过收集更多具有挑战性的数学问题来进一步改进,我们将此留作未来的工作。

相关推荐
XianxinMao30 分钟前
《大型语言模型与强化学习的融合:探索问题的新解决方案与开源验证需求》
人工智能·语言模型·开源
2401_8974446437 分钟前
AI驱动的可演化架构与前端开发效率
前端·人工智能·架构
Zik----1 小时前
Pytorch初学
人工智能·pytorch·python
stone-jack1 小时前
from pytorch3d import _C问题
人工智能·pytorch·python
KeyPan1 小时前
【机器学习:十四、TensorFlow与PyTorch的对比分析】
人工智能·pytorch·python·深度学习·机器学习·计算机视觉·分类
cdut_suye1 小时前
基于Linux环境的进度条实现
linux·运维·服务器·数据库·人工智能·深度学习·中间件
青春~飞鸟1 小时前
再次梳理ISP的大致流程
图像处理·人工智能·计算机视觉
最 上 川1 小时前
西电-神经网络基础与应用-复习笔记
人工智能·笔记·神经网络
AIGCmagic社区2 小时前
AI多模态论文解读:LLaVA-CoT:让视觉语言模型逐步推理
人工智能·深度学习·语言模型
huoyingcg2 小时前
武汉火影数字|探秘数字展厅:开启沉浸式科技新体验
人工智能·科技·计算机视觉·3d·虚拟现实