25年3月来自哈工大、中南大学、香港大学和复旦大学的论文"Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models"。
OpenAI-O1 和 DeepSeek-R1 等推理大语言模型 (RLLM) 领域的最新进展,已在数学和编码等复杂领域展示其深刻的能力。它们成功的核心因素在于应用长思维链 (Long CoT) 特性,这可以增强推理能力并解决复杂的问题。然而,尽管取得了这些进展,但仍然缺乏对长思维链 (Long CoT) 的全面综述,这限制了对其与传统短思维链 (Short CoT) 区别的理解,并使有关"过度思考"和"测试-时间规模化"等问题的持续争论变得复杂。本综述旨在通过提供对长思维链(Long CoT) 的统一视角来填补这一空白。(1)首先区分长思维链 (Long CoT) 和短思维链(Short CoT),并引入一种新的分类法来对当前的推理范式进行分类。 (2) 接下来,探讨长 CoT 的关键特征:深度推理、广泛探索和可行反思,与较浅的短 CoT 相比,这些特征使模型能够处理更复杂的任务并产生更高效、更连贯的结果。 (3) 然后,研究具有这些特征的长 CoT 出现等关键现象,包括过度思考和测试-时间规模化,从而深入了解这些过程在实践中的表现。 (4) 最后,确定重大的研究空白,并强调有希望的未来方向,包括多模态推理的整合、效率的提高和知识框架的增强。
近年来,OpenAI O1 208 和 DeepSeek R1 155 等推理大语言模型 (RLLM) 的出现,引发了对长思维链 (Long CoT) 推理的大量研究,极大地提高它们的数学推理、编程任务和多学科知识推理能力 488, 686, 508, 50, 58, 673, 133, 776,如图所示。这种转变标志着大语言模型 (LLM) 中任务处理方法与传统方法的重大区别 798, 437, 439, 421。与传统 LLM 中使用的短思维链 (Short CoT) 不同,长思维链 (Long CoT) 推理需要通过测试-时间规模化在给定的问题空间内进行更详细、更迭代的探索和反思过程 299, 520, 364。这一过程导致数学和逻辑推理的显著进步,以及在探索监督微调 (SFT) 和强化学习 (RL) 技术如何增强扩展推理链的学习和探索方面取得了显著进步 440, 385。

如图所示,首先定义并研究长 CoT 与传统短 CoT 之间的区别,重点关注以下关键方面:(1)深度推理,需要足够深度的逻辑处理来管理大量推理节点;(2)广泛探索,涉及生成并行不确定节点并从已知逻辑过渡到未知逻辑;(3)可行反思,涉及反馈和逻辑连接的细化。这些特征使长 CoT 范式能够整合更复杂的推理并适应更广泛的逻辑结构,最终产生更高效、更连贯的结果。随后,系统地探索与长 CoT 相关的关键现象潜在解释,例如它的出现、过度思考现象、测试-期间的推理-时间规模化以及"顿悟时刻"等。最后,重点介绍未来研究的有希望的领域,并提出了有价值的开放资源框架和数据集,可作为未来调查的基础。

长 CoT 与短 CoT 比较如下。
长思维链(Long CoT)和短思维链(Short CoT)之间的关键区别,强调推理深度、重新审视联系和逻辑节点探索 607。这些区别明显区别于系统 1 和系统 2 思维。长思维链和短思维链之间的比较是在系统 2 框架内进行的,长思维链涉及更彻底的推理、反思和探索,而短思维链通常优先考虑浅显有效的逻辑,而不是详尽的推理。
短 CoT 概述
如上图所示,短 CoT 通常具有浅显的线性推理过程,其中结论是按顺序得出的,通常依赖于有限数量的逻辑节点 386。这种推理通常快速而直接,具有简单的表面层次转换和对替代路径的最低限度探索,这限制了它的泛化性 480。
在这个范式中,推理从一个节点按顺序进行到下一个节点,很少重新访问以前的节点,也很少探索替代的逻辑路径。
长 CoT 概述
相比之下,长 CoT 涉及更深层次的推理、反思分析和更广泛的逻辑结构探索。它有助于在更广泛的逻辑步骤中进行推理,解决问题的已知和未知元素 128。正式来说,长 CoT 基于显式或隐式树结构扩展短 CoT 的约束。该综述的架构如图所示:

长 CoT 的深度推理
深度推理是指跨多个互连逻辑节点进行深入彻底逻辑分析的能力,而短 CoT 通常无法实现这一点。在解决需要大量逻辑推理才能得出有效结论的复杂问题时,这种能力至关重要。(短 CoT 通常解决有限的逻辑节点集,涉及浅层推理)
长 CoT 的广泛探索
长 CoT 鼓励分支广泛探索不确定或未知的逻辑节点,从而扩展潜在的推理路径集。在解决具有模糊性、信息不完整或多种可能解决方案的问题时,这种探索尤为重要。(短 CoT 通常将探索限制在一组固定的逻辑节点内,这常常导致推理过于简单且探索受限)
长 CoT 的可行反思
长 CoT 涉及重新访问先前的逻辑节点以验证它们的连接是否有效和准确,然后纠正它们或选择替代逻辑路径。
反馈。反馈是指评估整体和中间输出的正确性和质量,也称为批评或验证。反馈可以来自外部来源、验证检查,或通过反思推理过程中的先前结论而得出。形式上,在每个步骤的逻辑节点 n_i 中,验证过程 V_i 确保推理的正确性、可行性和一致性。如果发现问题,该过程会将 n_i 重定向到最近的正确节点 n_j ,其中 j < i。
细化。这涉及根据给定的反馈,调整中间步骤或修改逻辑流程以纠正不一致或解决差距。
总体而言,加入反思可确保及时发现和纠正错误。此功能使 LLM 能够快速转向替代推理路径或纠正其当前轨迹。通过这样做,可以最大限度地减少错误传播,从而得出更准确的结论。
注:短 CoT 通常以直接、非重复的方式从一个节点移动到另一个节点,因此无法纠正其逻辑。
统一讨论
长 CoT 代表一个统一的推理系统,它整合前面概述的三个关键特征。相比之下,在短 CoT 时代,这些能力是独立发展的。早期的努力集中在传统 CoT 范式中的深度推理,随后基于人为设计的管道,逐渐引入反思机制。然后添加探索能力,并将这三个组件合并形成现代长 CoT 概念,旨在统一增强推理能力。
长 CoT 的进展是渐进的,而不是通过 O1 208 和 R1 155 等孤立模型突然出现。相反,它是逐渐发展的。例如,早期的系统,如 ToT 668,增强探索能力,但缺乏反思机制,因此不符合长 CoT 67 的资格。虽然 GoT 32 结合基于 ToT 的自我反思,但其原始模型仍然缺乏强大的深度推理,因此当时无法将其视为长 CoT。值得注意的是,现代长 CoT 系统往往忽视早期的技术。
总之,长 CoT 和短 CoT 代表不同的范例。长 CoT 具有更深、更广、更具反思性的推理过程,提高准确性和连贯性。相比之下,短 CoT 更适合更简单、定义明确的问题。这种区别突出长 CoT 的可扩展性和适应性,使其对于更复杂的推理特别有效。
长 CoT 分析和评估如下。
长 CoT 的分析与解释
长 CoT 研究通过提高推理准确性、减少错误和支持动态决策,显著增强 RLLM。从方法论上讲,出现两种解释长 CoT 的主要观点:(1) 外部行为分析和 (2) 内部机制分析。
长 CoT 外部行为分析
主要研究方向侧重于解释长 CoT 的 RLLM 行为 20。如图所示,本部分确定并讨论长 CoT 的六个关键现象。

1 长 CoT 涌现现象。研究表明,上下文示例通过引导推理链的形成来提高大模型的生成能力 707, 473, 297, 238, 369。Wang 543 证明这些例子标准化与答案相关的推理链生成。在 Madaan 374 的实验中,从上下文示例中删除问题特定实体,同时仅保留逻辑结构,结果与使用完整示例的性能相似,突出推理过程中对长 CoT 的逻辑结构的模仿。
最近,Stechly 484 和 Wang & Zhou 579 表明,修改解码过程或设计特定提示可以在预训练模型中激活长 CoT。他们提出 CoT 嵌入在预训练过程中,需要特定的激活 658。此外,Sadr 455 将焦点集中在训练数据中的长 CoT 来源,并在此基础上提出"模型归因"的概念,具体识别对特定输出影响最大的训练数据。在此基础上,Guo 155 和 Xie 622 研究使用基于规则的强化学习在预训练期间直接激活长 CoT,旨在提高性能 620。此外,Gandhi 128 确定四种关键的认知行为,包括验证、回溯、子目标设定和反向链接,这些行为成功地促进长 CoT。Qwen 649 本身就表现出这些行为,可以通过基于规则的强化轻松触发。相比之下,Llama 113 缺乏这些能力,因此需要基于示例的强化学习来显著提高。
2 推理边界现象。最近的研究强调 RLLM 在各种推理任务中的上限和局限性 204, 191, 481, 178。具体来说,Bi 36 研究代码生成中的这些界限,表明 RLLM 在处理超过某些复杂度阈值的任务时会遇到困难,尤其是在模仿不同复杂度的长 CoT 样本时。在性能上限方面,Merrill & Sabharwal 383 和 Li 306 专注于单步算术任务,得出结论,模型性能受输入长度的限制。此外,Feng 118 提出一个数学模型,表明固定大小的模型无法在超过特定限制的情况下产生准确的数值答案。然而,增加推理步骤的数量可以提高模型解决更复杂问题的能力。
受这些探索的启发,Chen 64 首先定义"推理边界"现象并量化这些限制,表明超越 RLLM 的推理能力会导致性能下降。同样,Zhou 791 引入 GSM-Infinite,将不同的上限与准确度水平联系起来。Chen 64 还研究这些边界在不同复杂度任务之间的相互作用,为长 CoT 策略的有效性提供见解 759。此外,Amiri 9 提出长 CoT 的"严格下限",进一步指导推理错误减少。此外,Baeumel 22 认为,由于它依赖于单-数字前瞻启发式方法,在执行多个操作数的加法时存在固有的边界,从而阻碍 LLM 在扩展到更复杂数值推理方面的根本限制。
3 过度思考现象。研究强调过度思考现象 73, 227, 404, 96, 251,即推理链越长,性能越好,直到达到阈值,超过阈值就会下降。相比之下,Xie 622 和 Ma 370 发现推理长度和准确性之间没有显著相关性。为了解释这一现象,一组研究表明,长 CoT 策略,比如避免"滚雪球错误" 126。另外,Chen 64 和 Wolf 602 强调,当超出推理边界时,性能会下降,这为过度思考现象提供了解释。这表明,推理长度和逻辑复杂性应该保持在某个边界以下 756。在此基础上,Wu 611 从数学上确定长 CoT 的可行推理长度。最后,Chen 66 引入 Faraday 长 CoT 定律,该定律可以准确预测和控制性能。
4 推理的测试-时间规模化现象。推理-时间规模化算法 364, 598 的最新进展引起广泛关注,尤其是因为它们能够延长推理长度并提高性能 364。具体来说,Brown 40 发现一种称为"大语言猴子"的现象,其中一系列推理任务表明,只要进行足够的试验,就可以获得正确的结果。此外,O1 208 和 R1 155 证明直接规模化模型推理长度可以提高最终性能。
为了理解推理测试-时间规模化,讨论以下两个范例:
(1)垂直规模化:垂直规模化涉及增加推理路径长度。虽然这可以提高性能,但 Jin 227 的研究表明,在某个点之外,较长的推理路径会由于错误累积而降低性能。他们提出了一个取决于模型能力和任务复杂性的最佳路径长度 12, 463。此外,Chen 64 和 Wu 611 解释说,超出 RLLM 固有推理边界的过度探索长度,会导致性能下降,这指导 RLLM 实现更深层次的推理能力 25。
(2)并行规模化:并行规模化涉及执行多个推理步骤并验证结果。虽然它很有希望,但 Parashar 411 和 Wang 584 认为,仅仅增加推理时间并不能保证提高性能。Wu 610 表明,推理的计算 FLOPs N,与性能误差的下限相关,后者与 log N 成比例。此外,Chen 66 建立并行规模化的上限,表明 RLLM 不能通过各种验证器超过 Pass@k 验证。他们进一步指出,采样优化不能超出模型的内部推理限制,表明对于 N 个样本,准确度与 m/(k/log N+b)^2 成正比,其中 m、n 和 b 是与模型相关的常数。
5 PRM 与 ORM 现象。随着 RLLM 的发展,区分过程监督和结果监督至关重要,这两种方法都是复杂推理任务的关键强化学习方法,这一点至关重要 632, 123。虽然过程监督直观上有利于长期奖励分配,但两者之间的确切关系仍不清楚。人们普遍认为,由于轨迹级覆盖问题,过程监督更具挑战性,这需要付出巨大努力来收集细粒度的监督数据 769, 478。此外,PRM 还面临奖励黑客问题 10, 101, 403, 24,即智体利用奖励函数中的缺陷产生非预期行为 155。解决这一问题以超越基于规则的奖励系统,已成为一个重要的研究领域 155, 622, 419。此外,Lampinen 260 和 Tan 497 在定性实验中建立中间步骤和最终答案之间的因果关系。在此基础上,Jia 216 证明,在标准数据覆盖假设下,除了多项式因子外,带有结果监督的强化学习在统计上并不比过程监督更具挑战性。
6 顿悟时刻现象。此前,Guo 155 证明使用基于规则的奖励的直接强化学习可以触发顿悟时刻,在没有监督的情况下促进自然的自我反思。随后,Team 507、Xie 622 复制这一现象。此外,Zhou 782 和 Meng 382 进一步将这一现象扩展到多模态场景。然而,Liu 346 认为顿悟时刻可能不会出现在类似 R1-Zero 的训练中。相反,他们观察到自我反思模式(如表面自我反思 (SSR))出现在第 0 阶段,即基础模型阶段。在这种情况下,自我反思不一定能得出正确答案。在仔细研究通过强化学习进行的 R1-Zero 训练后,他们发现,增加的响应长度不是来自自我反思,而是来自强化学习优化精心设计的基于规则的奖励。
长 CoT 内部机制分析
推理内部机制。最近的研究探索长 CoT 连贯理性输出背后的内部机制,特别强调注意机制 476, 446。这些研究主要检查 RLLM 中的神经子结构,从白盒子视角构建 CoT 推理 583, 693, 159, 114。Weston & Sukhbaatar 601 引入系统 2 注意 (S2A) 的概念,它通过选择性地将注意集中在相关信息上来展示长 CoT 的生成。此外,Li 290 探索直接输出和长 CoT 层之间的梯度分布,表明长 CoT 层通过区分相关推理和不相关推理来帮助维持稳定性。最后,Zhang 747 将 RLLM 概念化为有限状态自动机,进一步洞察内部动态如何影响外部行为。尽管短 CoT 在自我修正方面存在困难,但 Bertolazzi 31 表明,这些模型依靠一致性头(注意头)通过内部捷径来评估算术解中数值的对齐情况。
知识整合机制。当前的 RLLM 主要关注数学和编码,但已显示出推广到其他知识丰富领域的潜力,这引发人们对将域特定知识整合到长 CoT 中的兴趣 608, 622。Prystawski 429 建议生成模型独立存储在预训练期间学习的实体知识,而长 CoT 中的推理过程将这些知识与实体联系起来。Radha & Goktas 444 最近引入概率混合模型 (PMM),将模型输出分为推理、记忆和猜测。他们还提出信息论一致性 (ITC) 分析来量化模型置信度和策略选择之间的关系。此外,Jin 228 将"概念深度"定义为理解复杂概念的最低层,展示 RLLM 中知识整合的不同层次。Ou 402 通过知识环演化研究 RLLM 知识内化,认为新知识的获取是由其与现有知识的联系所塑造的,循环从形成到优化,从浅到深。
长 CoT 评估
指标
在基准测试中,各种指标评估模型在推理任务中的表现,每个指标都侧重于推理能力的不同方面。这些指标既评估 RLLM 在实现预期结果方面的有效性,也评估它们的学习效率。因此,RLLM 的指标在最近的研究中越来越受到关注。对于数学或代码相关的任务,通常使用三个关键指标:基于正则表达式提取的准确度、Pass@k 和 Cons@k。在科学或常识问答任务中,评估通常使用基于正则表达式提取的精确匹配 (EM) 和准确度,其中 EM 确定模型的输出是否与预期解决方案完全匹配。对于 ORM 或 PRM 等反馈技术,通常使用排名和 Best-of-N 指标。
解码策略
解码策略对于控制推理过程至关重要。常用方法包括贪婪解码、波束搜索和 Major@k。贪婪解码和波束搜索都限制采样范围以减少随机性,从而引导模型获得更一致的输出。相反,Major@k 通过从一组 k 个候选解决方案中选择一致性最高的解决方案,确定最可靠的解决方案。
基准
在基准领域,重点在于评估不同领域的 RLLM 的推理能力。主要有两个类别:(1) 结果基准,侧重于长 CoT 推理的整体视图;(2) 过程基准,侧重于长 CoT 过程或个人能力的局部视图。
过程评估
深度推理基准。RLLM 的最新进展强调需要专门的基准来评估其在长 CoT 266 中的深度推理能力。值得注意的是,Lin 320 引入 ZebraLogic,这是一个评估逻辑推理的框架,尤其是在复杂的非单调场景中。同样,BigGSM 64 和 GSM-Ranges 472 专注于扰动数值,以测试模型训练分布之外边缘情况下的逻辑和算术推理。ROSCOE 142、ReCEval 426 和 DiVeRSe 304 旨在评估长 CoT 任务期间深度推理过程的每个步骤。
探索基准。一些研究评估 RLLM 在 Long CoT 任务中的探索能力。具体而言,Sys2Bench 411 评估 RLLM 的探索和规模化能力,强调在不同任务中的泛化能力。 BanditBench 397 通过在交互式环境中测试模型性能规模化这一方法,为实际应用提供见解。此外,Heyman & Zylberberg 173 引入一个图着色问题来评估复杂问题解决场景中的推理和空间探索。
反思基准。反思基准衡量 RLLM 识别、反思和纠正长 CoT 推理中错误的能力。这些基准分为两类:反馈和改进。
高级评估
智体和具身推理。智体和具身推理需要模型展示对现实世界交互、工具使用和响应变化的自适应推理理解。为了评估现实世界的理解,Wang 568 引入一个基准,用于评估智体推理物理概念的能力。Zhang 745 通过评估智体与现实世界物理的交互来扩展这一点。此外,现实任务通常需要复杂的规划和工具使用,因此需要基准来评估智体推理。这些基准评估智体在数字环境中导航和完成任务的能力。在此基础上,Huang 191 提出一个在多智体竞争环境中评估决策的框架。Nath 393 引入 ToolComp,这是一个旨在评估多步工具使用推理的基准。为了分析面对现实世界变化的自适应推理,OSWorld 623、CogAgent 177、Mobile-Agent-E 589、WebShop 667、WebArena 789 和 WebGames 522 评估操作系统、移动 GUI、浏览器任务和交互式娱乐等领域的 AI 系统 770, 559。Hu 186 提出 Text2World,它评估智体从文本生成交互式环境的能力,以测试智体的适应性 695。
多模态推理。多模态推理是指系统整合和推理各种输入类型(包括文本、图像,偶尔还有代码或图)的能力。这种能力对于解决需要来自不同格式信息的复杂问题至关重要。
用于研究的人工智能。人工智能的最新进展极大地推动科学研究 787, 581, 144,SciWorld 568 等平台改进研究过程。同时,Pricope 428 和 Chan 48 引入一个机器学习平台来评估 RLLM 在自动化实验中的潜力。一些研究还考察 RLLM 产生创新研究想法的能力。例如,Si 474 对 100 多名 NLP 研究人员进行评估,以评估 RLLM 的创造力,发现明显的局限性 287, 606, 512。此外,Li 310 引入 SolutionBench,这是一个用于评估系统为复杂工程问题生成可行解决方案的能力基准。
如下讨论长 CoT 的深度推理。
深度推理能力主要要求认知和推理过程具有深刻的深度和全面性。如果缺乏这种能力,RLLM 的性能将显著下降 542, 587。当前增强深度推理的方法可分为两大类:(1)深度推理格式,涉及利用各种推理执行格式;(2)深度推理学习,侧重于使模型能够学习并增强其深度推理能力。
深度推理格式
如图所示,深度推理格式可分为三类:自然语言、结构化语言和潜空间推理,后者进一步细分为 token 驱动、向量驱动和管理器驱动的潜在推理。

下表显示这些格式的推理性能。

自然语言深度推理
传统上,研究人员一直试图将自然语言改编为直观和自由流动的深度推理 594, 781, 204, 435, 749, 548。Wei 594 的早期工作表明,使用自然语言长 CoT 可显著增强 RLLM 的推理能力。此外,自然程序框架 327 允许 RLLM 通过确保更结构化和更严格的逻辑分析进行更深入的自然语言推理。最近,CodeI/O 285 引入一种将基于代码推理模式重新组织成自然语言格式的技术,进一步提升 RLLM 的推理潜力。
结构化语言深度推理
结构化语言深度推理包含各种方法,旨在编程 70, 330, 483, 418, 132, 599 或符号语言 425, 104, 321, 264, 654, 424 格式以增强深度推理。在这种情况下,大多数研究集中于利用代码来更好地增强数学推理能力 275, 76, 684。Xu 631 提出一种由环境引导的神经-符号自训练框架,解决 LLM 中符号数据的稀缺性和符号处理的局限性。此外,Liao 631 提出一种由环境引导的神经-符号自训练框架,解决 LLM 中符号数据的稀缺性和符号处理的局限性。 314 提出 SKIntern,它通过课程学习和线性衰减来改进符号 RLLM,从而能够用更少的示例实现符号知识的内化,降低计算成本并加快推理速度。此外,Ranaldi 448 提出 QuaSAR,这是 CoT 的变型,它通过准符号推理,指导 LLM 在更高的抽象层次上运行,从而改进自然语言推理并提供更精确的结构表示。
潜空间深度推理
潜空间深度推理,包含旨在通过利用连续潜空间内的操作来增强 LLM 推理能力的技术 481, 100。这些方法可以分为三个主要范例:(1)推理 token 驱动的潜空间深度推理:早期工作 575, 708 引入了"规划 token"或"思维 token"的概念来指导潜空间内的推理。此外,Coconut 162 通过维护多个替代推理路径对此进行扩展,从而提高复杂性和效率 748, 496。在极端情况下,Heima 469 将整个长 CoT 过程压缩为单个 token,从而节省大量计算量。 (2)推理向量驱动的潜空间深度推理:在前一个范式的基础上,LTM 250 将 LLM 的各层概念化为"思维块",并为每一层引入了"思维向量"的概念。这种方法通过循环深度在潜空间内隐式执行推理,从而实现测试-时计算的规模化。(3)推理管理器驱动的潜空间深度推理:受此启发,Geiping 136 和 Saunshi 459 提出一种类似于连续推理管理器的机制,它将训练的"递推块"迭代地作为递推的"思维块"进行管理。该方法在推理过程中集成更深的模型层,从而无需专门的训练数据即可提高性能,甚至优于更大规模的 RLLM。此外,ITT 77 利用原始 Transformer 层作为递推的"思维块",通过自适应 token 路由选择关键 token,并通过残差思维连接,控制推理深度,从而更有效地处理关键 token。
深度推理学习
RLLM 中深度推理不足会显著降低性能 542, 587。因此,研究的重点是通过训练来提高推理能力。监督微调 (SFT) 741 通过充当记忆过程来稳定模型输出,而强化学习 (RL) 则支持泛化和自学习 155, 91。深度推理学习的最新研究,探索使用 SFT 模仿 RLLM 中的高级推理,并应用 RL 来增强推理的自我提升。如图所示,两种改进深度推理的关键方法:(1)深度推理模仿,涉及通过 SFT 从人类注释或蒸馏的数据中学习推理;(2)深度推理自学我学习,其中模型通过基于偏好的 RL 和隐性奖励来改进推理。

这些方法的性能如表所示。

深度推理模仿
通过模仿高级推理系统,例如人类推理 390, 43, 81, 286、高级 RLLM 155, 41, 670, 262, 72 和规模化-增强的 RLLM 293, 702, 420, 792,可以有效地实现 RLLM 中的深度推理。这种方法使模型能够学习复杂的推理模式并跨任务进行泛化 657。具体而言,(1)模仿人类:此前,Cobbe 95 首次提出使用人类示例的深度推理模仿范式。ALT 390 通过生成更大的人类注释逻辑模板数据集来改进 RLLM 推理,从而促进更深层次的推理。为了增强多样性,EIT 43 提倡更简单的人为生成规划,而 LLM 则贡献更细致的推理,促进人类输入和 AI 之间的协作。(2)模仿高级 RLLM:大量研究利用零样本提示来指导大型教师 RLLM 生成推理原理,然后将其用于微调较小的 RLLM,标志着深度推理模仿的开始 174, 246, 679。此外,AceMath 347 应用小样本提示从高级 LLM 中提取长 CoT 样本,然后进行多阶段质量指导的 SFT 来提高性能。Chen 76 将数据合成过程分为规划和推理阶段,从而提高推理质量。DART-Math 524 有效地蒸馏在合成过程中需要更深层次推理的复杂查询,提高深度推理能力。(3)从规模化的 RLLM 中进行模仿:此前,Bansal 26 通过规模化采样大小和长度来提高数据质量,提高模仿性能。Yang 650 和 Zhao 761 通过规模化采样并通过奖励模型选择样本进一步提高数据质量。此外,Li 293 通过 MCTS 确定最佳深度推理路径,提高模仿效果。最近的研究 200, 385 表明,从 O1 208 和 R1 155 等高级 RLLM API 中提取知识可显著提高小型 LLM 的性能。这种方法采用监督微调,提高模型在复杂数学推理任务中的表现,有时甚至超过了大型教师模型的表现。基于这些发现,LIMO 676、S1 391 和 RedStar 635 认为,大量的模仿样本是不必要的。他们证明,即使是最少的样本集也能激活基础 LLM 中的深度推理能力。在实际应用中,Turtel 532 展示这些技术如何预测超出模型知识范围的未来事件。
深度推理自我学习
虽然简单的模仿可以产生强大的性能,但当前的模型在模仿和蒸馏方面仍然严重依赖人类注释或更高级模型的输出。为了解决这一限制,最近的研究集中于通过自我对弈和自我学习等技术实现更高级的推理 663, 754, 292。具体而言,自我学习方法可分为两种范式,根据其采样策略进行区分:
(1) 直接采样自我学习:最早的方法 STaR 707 利用上下文学习 (ICL) 对深度推理结果进行采样,并将最终答案的正确性作为自我学习的隐性奖励 175, 409, 410, 742, 588, 328。此外,ReST 153 通过引入 Grow-Improve 范式对此进行扩展,其中自生成的推理首先用奖励进行注释,然后通过离线 RL 算法进行增强。然而,这些方法可能很脆弱,尤其是当奖励过程缺乏鲁棒性时。受期望最大化 (EM) 算法的启发,Singh 475 提出一种生成奖励并迭代优化 LLM 以在验证集上实现最佳性能的方法,从而显着提高鲁棒性。为了进一步强化奖励过程,Hosseini 179 提出一种适应错误解决方案的方法,训练验证者来改进奖励过程,提高自学习质量。
(2)通过树搜索进行自我学习:早期的深度学习方法,如 EXIT 15,将 MCTS 与深度神经网络相结合进行强化学习,通过迭代方式自训练网络来指导树搜索,增强推理能力。在此基础上,CPO 746 和 TPO 316 将长 CoT 推理的每一步与相应的树搜索路径对齐,利用思维树 (ToT) 668 偏好信息来支持更深层次的推理 665, 203。李 302 提出策略引导树搜索 (PGTS),将强化学习与结构化树探索相结合,以更有效地导航推理路径。进一步的发展,如 AlphaMath 53、AlphaLLM-CPL 578 和 TongGeometry 724,通过逐步轨迹对提取和课程偏好学习改进 MCTS 行为,增强 LLM 推理能力 431, 295。