LLM的测试-时规模化：基于子问题结构视角的综述

25年来自Penn State和南洋理工（新加坡）的论文"Test-time Scaling of LLMs: A Survey from A Subproblem Structure Perspective"。

本文综述通过在推理阶段分配额外计算资源来提高预训练LLM预测精度的技术。在测试-时规模化方法的分类，特别关注问题如何分解为子问题以及这些子问题的拓扑结构------无论是顺序的、并行的还是树状的。这种视角能够将诸如"思维链"（Chain-of-Thought）、"分支-求解-合并"（Branch-Solve-Merge）和"思维树"（Tree-of-Thought）等不同的方法统一起来。此外，还综合现有对这些技术的分析，重点阐述它们各自的优势和劣势，并最后概述未来研究的潜在方向。

测试-时规模化（TTS）是指在推理阶段用更多的计算资源换取更高的预测准确率的策略（Brown et al., 2024; OpenAI, 2024; Wu et al., 2024; DeepSeek-AI et al., 2025）。通过用额外的推理-时计算资源换取准确率，测试-时规模化能够在保持模型参数不变的情况下提升大语言模型（LLM）和视觉语言模型（VLM）的性能，并在诸如ARC-AGI等复杂任务上展现出显著优势（Chollet, 2019）。

测试-时规模化最经典的例子无疑是思维链（CoT）技术（Wei et al., 2022a），该技术在预测最终答案之前，会依次生成一系列描述思维过程的中间文本token。这些中间token可以扩展具有固定层数的Transformer网络能够解决的问题范围（Li et al., 2024d）。

除了CoT的顺序执行之外，还可以采用不同的方式组织子任务或子问题。本文的核心论点是子问题结构对性能至关重要，这是理论计算机科学中一个众所周知的原则（Cormen et al., 2001），例如分治法或动态规划等技术就体现了这一点。诸如分支-求解-合并（Branch-Solve-Merge）（Saha et al., 2024）和A-解码*（Chatziveroglou, 2025）等技术可以并行或以树搜索的方式解决子问题。

本文从子问题结构的角度对测试-时间规模化技术进行综述。其提出的一个关键见解是，子问题的识别和组织具有跨问题域（单模态与多模态）或LLM模型类型（直接生成与检索增强）的重要共通意义。为了阐明这一点，调查不同问题领域和LLM类型中的各种技术，并讨论它们的共同优势和劣势，以期为未来的研究提供参考。

该综述的主要重点是将目标任务分解为更小、更易于管理的子任务。根据自动化程度，将任务分解策略分为两类：纯人工分解和LLM辅助分解。

纯人工分解

在这种策略中，设计人员提供足够详细的子任务列表或层级结构，无需进一步分解。它非常适用于流程已知、控制流清晰的任务，这些流程和控制流可能源于多年的经验积累。例如，软件工程流程（Qian，2024）就采用经典的瀑布式流程，包括设计、编码、代码补全、代码审查和测试。

纯人工分解方法具有以下几个优势。首先，确定性的结构无需模型规划步骤，从而提高推理效率并降低方差。其次，它允许进行显式设计，以检查和纠正已知的LLM缺陷，而某些LLM可能对此浑然不觉（Gandhi，2025）。例如，可以强制执行一个自验证步骤，重新检查LLM的答案或筛选不安全的输出（Xie，2023），或者一个步骤来移除可能误导LLM的无关信息（Deng，2023）。类似地，自我改进（Madaan，2023）引入一个子任务，其中LLM对其自身的输出进行批判和修改。在 RAG 范式中，FLARE（Jiang，2023）检测预测结果中置信度较低的tokens并进行修正，而 Self-RAG（Asai，2023）则提出评估子任务，用于检验检索的文档和模型预测对目标问题的效用。

然而，仅靠人工进行分解的僵化性限制根据特定输入定制子任务层级的能力。利用 LLM 进行任务分解可以解决这个问题。

LLM 辅助分解

LLM 辅助分解允许 LLM 在推理时分解部分或全部子任务。这种范式提供更大的灵活性，适用于需要多样化、针对特定问题的分解，或没有明显通用结构的任务。一种代表性的方法是最小-最大提示法（Least-to-Most Prompting，Zhou et al., 2023），它以问题特定的方式将复杂问题显式地分解为更简单的子问题。相比之下，思维链提示法（Chain-of-Thought Prompting，Wei et al., 2022a）则是一种隐式分解方法，模型直接生成自然语言的逐步解决方案，而无需显式地识别中间子问题。然而，这些推理步骤仍然反映了潜问题结构。

尽管LLM的分解能够实现高度灵活且富有表现力的推理，但它也可能产生不稳定或次优的分解结果。例如，LLM可能会跳过必要的子任务或引入无关的步骤，从而导致错误的解决方案。众所周知，强化学习下的思维链常常会产生不必要的冗长思维（Wu et al., 2025; Yeo et al., 2025; Team et al., 2025）。

混合分解策略也十分流行。在这种策略中，人类设计者提供清晰的任务分解框架，然后LLM在推理阶段将高层指令细化为更详细的子任务，从而充分利用两种方法的优势。许多RAG的变体都遵循这种策略；在高层，只有两个任务：检索和生成。但模型可以自主地将每个任务进一步分解为多个查询（Rackauckas, 2024）或迭代检索步骤（Trivedi et al., 2023）。

就子任务的拓扑结构而言，有几种主要的子任务组织类型：顺序型、并行型和树状结构。对于每种类型，首先给出正式定义，然后阐述其在单模态、多模态和检索增强生成（RAG）任务中的应用。

每种应用场景都对子任务组织提出不同的挑战。单模态应用（输入和输出均为文本）是最常见的用例。多模态应用整合了来自不同模态的信息，从而引入额外的复杂性。尽管 RAG 并非一种特定的模态设置，但由于其内部相似性以及在测试时尺度调整中的重要作用，在此单独讨论。

如图所示：

顺序结构

定义。顺序推理路径将子任务组织成严格的线性顺序，其中后续步骤依赖于先前步骤的结果。这种结构确保中间输出逐步引导模型得出最终解决方案。

单模态应用。作为一项开创性工作，(Wei et al., 2022b) 提出思维链 (CoT) 提示，该方法能够生成显式的自然语言中间推理步骤，但不会生成显式的中间子任务。这种方法提升大语言模型 (LLM) 在数值运算和逻辑推理任务上的性能 (Sprague et al., 2024)。在 CoT 的指导下，LLM 能够自发地确定问题求解过程，包括问题分解的粒度以及子问题的求解方法。

CoT 的成功启发后续研究，探索更可控的中间步骤结构方式，以提高准确性和可验证性。例如，思维程序 (Program of Thoughts) (Chen, 2023b) 和代码链 (Chain of Code) (Li, 2024a) 将自然语言子问题转化为可执行程序，从而实现更精确、更可验证的子问题求解。 Parsel（Zelikman，2023）通过将问题解决步骤组织成功能类元素的结构化树状结构，进一步增强这一理念，从而支持细粒度、可解释的计算。这些方法通过将推理形式化为句法结构，提供高度的可控性。

另一个研究方向侧重于通过在 LLM 的输出中嵌入顺序反馈回路来提高 LLM 的输出质量。Self-Refine（Madaan，2023）引入一个自反馈循环，其中 LLM 对其自身的输出进行批判性分析并迭代改进。Step-Back Prompting（Zheng，2024）鼓励模型从具体问题抽象为高级概念，然后基于这些抽象进行推理------从而减少复杂推理中的错误传播。

多模态应用。视觉语言任务，例如视觉问答（VQA），通常采用从模型到答案的直接方法。相比之下，PICa（Yang，2022）开创一种测试-时工作流程。该流程包含两个顺序步骤：（1）将图像转换为图像的文字描述；（2）让纯文本大语言模型（LLM）根据这些描述回答问题。目标描述生成方法（Tiong，2022；Guo，2023）通过生成与问题密切相关的图像描述，进一步完善这一思路，其性能优于端到端训练的视觉学习模型（例如Flamingo（Alayrac，2022））。研究表明，在测试时增加图像描述的数量可以提高答案准确率（Wang et al., 2023b; Xenos et al., 2023）。

第二类方法是将外部工具或结构化表示集成到推理过程中。组合式思维链（Mitra et al., 2024）将视觉输入转换为场景图（对象、属性和关系），并以 JSON 格式将其与图像一起输入到视觉语言模型（VLM）中，从而促进结构化的中间推理。IdealGPT（You et al., 2023）采用类似于从最少到最多的提示策略的子问题生成策略，使用 VLM 依次回答每个子问题，直到对最终答案充满信心。Chameleon（Lu et al., 2023）进一步扩展这一流程，允许 LLM 调用外部工具（例如视觉网络或 Python 函数）来解决子问题。 ViperGPT（Surís，2023）和VisProg（Gupta&Kembhavi，2022）通过使用LLM生成和执行模块化的Python程序来构建视觉推理流程。这些程序协调预训练的感知模块和逻辑运算，从而能够为复杂的视觉任务提供可解释的零样本解决方案。

类似的顺序结构也出现在多阶段视频推理中。例如，MoReVQA（Min，2024）首先识别视频中的关键事件，将其与文本描述关联起来，然后应用记忆增强推理，最后生成最终答案。尽管实现方式有所不同，但所有这些方法都共享一个中间结果的顺序链，该链引导推理最终生成多模态输出。

RAG 应用。早期顺序 RAG 方法，例如 In-Context RALM（Ma，2023），在 LLM 推理过程中采用单次检索步骤来提高事实准确性。Rewrite-Retrieve-Read（Ma，2023）在检索之前引入查询重写步骤以提高相关性。更动态的顺序 RAG 允许检索和生成在多次迭代中交替进行，每次迭代都基于前一次迭代的输出。此类方法通常包含 LLM 辅助推理过程。Auto-RAG（Yu，2024）引入一个检索规划器模块，该模块基于已检索的信息识别未满足的信息需求。所需信息将在下一次迭代中检索。 IRCoT（Trivedi，2023）等方法在检索后引入思维链，用于分析和总结外部知识。

此外，一些 RAG 方法，例如 Self-RAG（Asai，2023）、FLARE（Jiang，2023）和 DRAGIN（Su，2024），主要依赖于生成，仅在需要外部知识或模型对其输出置信度较低时才执行检索。

常见问题及缓解措施。推理路径的顺序性意味着错误可能从前面的步骤传播到后面的步骤。为了缓解这个问题，最近的研究提出一些策略，通过检查和改进中间步骤来提高最终输出的一致性。这些策略可以分为三类：

第一种减少错误传播的技术直接针对源头：用户查询，因为 LLM 可能无法清晰地理解用户查询。重述与响应 (RaR) (Deng et al., 2023) 通过要求模型以更明确的术语重述或扩展用户的查询来解决这个问题。这种更透明的起点有助于后续推理步骤更加准确。在多跳推理或 STEM 任务中，陷入细节可能会使 LLM 感到困惑。回溯提示 (Zheng et al., 2024) 鼓励模型通过导出高层次问题来抽象化具体细节，然后带着这些抽象问题重新审视原始问题，以指导每个推理步骤。这种抽象使模型能够从概念层面判断推理路径是否连贯。

第二种技术试图让 LLM 检测并纠正自身的错误。自我改进 (Madaan et al., 2023) 提示 LLM 生成初始输出，并根据模型自身的反馈迭代地改进该输出。在每一轮改进中，模型都会找出错误或歧义，并在继续前进之前进行纠正。为了避免产生看似合理但实际上错误的中间结果，验证链（Dhuliawala，2024）会生成额外的"验证问题"，这些问题针对链式思维中的每个关键事实进行反思。每个验证问题独立地检查初始草稿的不同部分，从而减少先前偏见或错误的影响。

第三种技术旨在从外部来源（例如从知识库检索的事实）验证中间结果。QueryAgent（Huang，2024）通过在中间阶段引入丰富的环境反馈（例如知识库检索结果和 Python 解释器输出）来解决幻觉问题。如果中间步骤不正确或不完整，它会进行自我纠正。在多跳任务中，模型需要将多个事实拼接起来。 Self-Ask（Press，2023）通过引导模型向自身提出明确的子问题并在形成最终解决方案之前回答这些问题，缩小"组合性差距"。这些子问题可以使用外部工具（例如网络搜索）进行单独验证，以进行事实核查。

并行结构

定义。与单路径推理不同，并行多路径推理并行探索多条解路径。每条路径在开始时实例化，独立进行，不再分支，最终才进行聚合。这种设置可以被视为一种集成学习，因为集成方法依赖于候选解的多样性。在多条路径上生成不同的中间解，使得模型能够比较或聚合这些解，从而提高找到更准确解的概率。

单模态应用。最直接的策略之一是自洽性（Wang et al., 2023a），它对不同的思路链进行采样，并选择出现频率最高的解作为最终输出。通用自洽性（Chen et al., 2024）将这一思想推广到长篇答案，让LLM比较并从多个候选解中选择最佳答案。相比之下，分支-求解-合并（Branch-Solve-Merge，Saha，2024）将复杂的任务显式地分解为多个并行的子问题，然后将部分解合并成一个连贯的最终输出。更进一步，RR-MP（He，2025）在每次路径生成后增加一个显式的评估步骤，其中一个反思智体对一个反应智体生成的初步输出进行批判和改进。这种双-智体交互确保每个推理路径都经过迭代修正，从而减少幻觉和思维退化，同时多路径设计聚合来自不同推理轨迹的见解，以产生更准确、更稳健的解决方案。

另一个有趣的想法来自假设搜索（Hypothesis Search，Wang，2024a），它生成多个候选程序，并在示例输入输出对上检查每个程序。该系统持续对每个程序执行基于LLM的自改进，直到某个程序成功解决所有训练问题或达到最大自改进轮数为止。在代码合成问题中，MapCoder（Islam，2024）同时优化多个高级规划。

多模态应用。集成学习受益于多个彼此去相关的预测（Breiman，2001）。多模态设置自然允许针对每种模态创建去相关的解决方案路径。例如，专为视频问答设计的视觉-语言规划（VLP）（CEN，2024）包含视觉路径和语言路径。视觉路径从视频和生成的未来视频中采样帧。语言路径将问题分解为子问题。问题的答案基于两条路径的输出。 MVoT（Li，2025）通过在CoT中混合文本和视觉信息，利用模态间的互补性。它将每个文本想法渲染成图像，并将其反馈给模型以指导后续推理。这项技术模拟类似人类的"边想象边推理"过程，并提高了空间推理任务的性能。

一些方法明确地采用互补的解决方案策略来提升VQA的性能。DietCoke（Li，2024b）集成三种不同的问答策略：基于图像的、简短形式的知识和完整形式的知识，并使用基于逻辑的聚合方法来选择最终答案，展现在不同决策情境下强大的互补性。类似地，混合推理模型（MoR）（Li，2024c）生成具有不同侧重点（例如属性、空间关系和上下文线索）的简短图像描述，判断这些描述是否相关，并将相关的描述融合以回答问题。Cola（Chen，2023a）使用LLM协调多个视觉-语言模型（VLM），每个模型都具有不同的推理优势，从而通过模型间的互补性选择答案。

RAG 应用。具有并行推理路径的 RAG 指的是在多个路径上并行执行检索、生成或两者都执行的方法。RAG-Fusion（Rackauckas，2024）将原始问题分解为多个检索查询，并在单个响应生成步骤中融合检索到的文档。相比之下，推测性 RAG（Wang，2024b）采用单一检索查询，但引入多条生成路径来生成多样化的并行答案草稿。之后，LLM 会验证并选择最佳草稿作为最终答案。

常见问题及应对措施。并行推理虽然通过探索和聚合多条解路径来增强鲁棒性，但也带来独特的挑战。一个关键问题是并行路径之间的不一致性或冲突------独立生成的推理链可能得出不一致或不兼容的结论，导致难以将它们聚合为可靠的最终答案。

一种缓解策略是基于共识的过滤。自洽性（Wang et al., 2023a）依赖于多数投票，机械地选择出现频率最高的答案，这要求候选答案之间完全匹配，因此难以处理细微的表面形式差异。通用自洽性（Chen et al., 2024）促使LLM从多个候选答案中选择最一致的答案，而无需显式投票，从而克服自由形式生成任务中对完全匹配的严格依赖。然而，这两种方法都假设正确性与频率相关，但如果流行但错误的推理路径占主导地位，则该假设可能不成立。

VLP（CEN，2024）提出，直接聚合和显式投票之间的选择应取决于 LLM/VLM 的能力。对于像 GPT4-V 这样能力强大的 LLM/VLM，VLP 允许它们直接合成信息并生成自由形式的答案。相反，对于能力有限的 LLM/VLM，VLP 实现一种包含投票机制的多轮对话策略。实验结果表明，聚合技术对性能有显著贡献，并具有进一步研究的潜力。

另一个挑战是资源分配。并行推理是计算密集型的，盲目地扩展所有路径可能效率低下。一些系统，例如推测性 RAG（Wang，2024b），通过使用轻量级模型预筛选候选路径来缓解这个问题，仅对最有希望的路径进行大型模型推理。这些技术共同旨在保留并行推理的多样性优势，同时优化计算资源的使用。

树状结构

定义。树状推理路径以分支层次结构排列子任务。有两种典型的树状结构。第一种结构更为常见，类似于路径查找（Hart 等，1968），解决方案只能由从根节点到叶节点的一条路径形成（Yao，2023；Xu，2024）。在这种树状结构中，每个节点代表一个子任务的（部分）解决方案，父节点的子节点代表竞争解决方案。

第二种树状结构类似于层次任务网络（Georgievski & Aiello，2015），最终解决方案需要聚合来自所有叶节点的信息（Kim，2023）。这里的叶节点代表必须组合起来才能产生最终结果的子任务。由于必须访问树的所有节点，因此访问顺序不会产生显著影响。在大多数LLM推理中，父节点会随着推理的展开逐步分解为子节点，通常只有一条分支会被进一步探索以找到最终解，而其他分支------对应于错误或次优的推理路径------则会被剪枝或丢弃。因此，大多数基于树的方法都属于第一类树，而这里的RAG，介绍一种扩展第二类树结构思想的方法（Kim，2023）。

对于第一类树，如何遍历树以找到或构建解至关重要。经典的树遍历算法包括深度优先搜索（DFS）、广度优先搜索（BFS）和启发式搜索。对于小型树，深度优先搜索 (DFS) 和广度优先搜索 (BFS) 就足够了，而诸如 A* 算法（Hart 等，1968）和蒙特卡洛树搜索 (MCTS)（Coulom，2006）等信息搜索算法更适合大型树，因为它们会根据对每个节点优劣的估计来确定节点的优先级。在 A* 算法中，每个节点的排名结合历史成本和对未来目标成本的估计------传统上，未来成本是通过手工设计的函数计算的，但越来越多地通过神经网络学习得到（Silver，2016；Gupta & Li，2024）。MCTS 通过随机模拟来估计节点值。

与顺序和并行结构相比，树结构提供更大的灵活性。它们可以动态地决定接下来要解决哪个子任务，回溯以探索替代路径，并剪枝无用的节点以提高效率。

单模态应用。自评估引导束搜索（Xie et al., 2023）采用束搜索作为其遍历策略------该方法结合广度优先搜索（BFS）和启发式搜索的特点。它在每一层树中选择固定数量（记为K）启发式得分最高的节点。只有被选中的节点才会被扩展------它们的子节点被生成。接下来，它从这些子节点中选择K个得分最高的节点，并重复此过程。关键在于，树节点评估不仅包括来自LLM的质量得分，还包括所生成部分思维的概率。

思维树（ToT）（Yao et al., 2023）因将思维树生成建模为树搜索问题而闻名，并提出两种遍历技术。ToT-BFS算法类似于束搜索；ToT-DFS算法则不断扩展当前节点，同时丢弃任何评估得分低于预定义阈值的子节点。

上述方法仍然假设树的大小可控或束宽度有限。对于较大的搜索空间，需要采用信息丰富的搜索算法，例如 A* 或 MCTS。A* 算法包含两个关键函数 g(·) 和 h(·)，分别代表历史成本和估计的未来成本（即当前步骤到目标的距离）。在 A-Decoding* (Chatziveroglou, 2025) 中，h(·) 是 LLM 对每个部分 CoT 候选方案的评估，值越高表示候选方案越差。为了保证 A* 算法的最优性，历史成本 g(·) 会累加 h(·) 沿轨迹的所有增加值，而不会累加任何减少值。ToolChain* (Zhuang, 2024) 应用 A* 算法生成一系列 API 调用，并将成功的 API 调用序列记录在历史中。g(·) 包含两部分：记录历史中最相似方案的成本，以及 LLM 在重复模拟中根据当前方案生成当前动作的频率。 h(·) 还包含两部分：当前动作（或最相似的动作）在所有历史规划中的位置，以及从当前步骤开始由 LLM 生成的未来规划的长度。

蒙特卡洛树搜索（MCTS）包含四个阶段：（1）选择，即选择一个树节点进行扩展；（2）扩展，即为树节点生成子节点；（3）模拟，即通过随机滚动多个动作序列来评估节点；（4）反向传播，即利用模拟中获得的信息更新现有树节点的统计信息。结合LLM和MCTS的典型方法是通过规划的推理（RAP）（Hao，2023）。为了解决规划问题，RAP利用LLM生成动作以及执行每个动作后达到的状态。这些状态成为树节点。在扩展阶段，RAP使用LLM生成动作和状态。在模拟阶段，奖励由LLM预测的动作似然度、LLM自评估以及人工指定的域特定启发式方法计算得出。在选择和反向传播阶段，RAP遵循经典的MCTS方法。 LATS（Zhou，2024）与RAP基本相似，但引入了一个自反思阶段。在该阶段，LLM会反思失败的终端节点，并生成文本来描述失败原因。生成的文本会成为LLM在后续搜索步骤中的上下文，以防止类似错误。LATS还利用外部环境（例如Python编译器）进行反馈。

MCTS的模拟阶段对LLM来说尤其耗时，因为它可能涉及多次LLM推理调用。因此，一些技术，例如蒙特卡洛推理器（Sprueill，2023）和MC-NEST（Rabby，2024），直接要求LLM评估当前树节点，而不是执行随机展开（rollout）。这些方法可以被视为简化的MCTS，省略模拟阶段。此外，一些方法将LLM评估和展开（rollout）结合起来。例如，当面临多个符合部署条件的叶节点时，I-MCTS（Liang，2025）使用 LLM 值模型选择一个节点进行部署。

多模态应用。针对多模态应用，存在多种基于树的技术。AVIS（Hu，2023）搜索一系列 API 调用，例如检索相似图像或在图像中选择对象，用于视觉问答。每次 API 调用都会向问答上下文添加更多信息。该系统采用 LLM 规划器来确定要尝试的下一个 API 调用，如果 API 结果被认为没有信息，则会回溯。当 LLM 确定祖先树节点中的 API 调用已收集到足够的信息时，它会回答问题。

与纯文本的思维树不同，多模态应用可以将多模态推理状态作为树节点。例如，在VisuoThink（Wang，2025b）中，每个树节点都包含先前推理操作的结果。该结果可能包含视觉信息和文本信息。为了解决一个几何问题，该算法遵循"思考-行动-观察"循环：（1）思考阶段生成下一个操作，例如添加一条新线作为视觉辅助；（2）行动阶段执行该操作并获得新的视觉状态；（3）观察阶段从新的视觉状态中推断出新的事实，并将其融入到结果节点中。 VisuoThink 使用蒙特卡洛树搜索（MCTS）作为树搜索方法。

另一种方法是使用纯视觉信息构建树节点。在ZoomEye（Shen，2024）这种视觉问答（VQA）方法中，根节点是完整的高分辨率图像，每个子节点是其父节点的放大子区域。它采用基于MLLM的启发式搜索，根据模型估计的置信度对候选区域进行排序，并模拟类似人类的放大/缩小操作，逐步定位与任务相关的视觉证据。检索增强感知（Wang，2025a）构建一棵树，逐步移除与问题无关的图像块。首先，图像被分割成固定网格的图像块。随着树的深入，越来越多的图像块被丢弃。树节点包含一个保留所选图像块空间关系的局部图像。树搜索使用A*算法执行，其中g(·)是所选图像块的平均问题相关性得分，h(·)的计算方法为1减LLM估计的从当前树节点回答问题的概率。

RAG应用。树状结构的RAG在文献中研究较少，讨论两种具有代表性的方法。对于接收的每个问题，SearChain（Xu et al., 2024）都会生成一系列子问题，这些子问题构成一个从根节点到叶节点的树状结构。每个子问题都由LLM直接回答，并同时从检索的文档中寻找答案。如果两个答案在某个子问题上存在分歧，则表明该子问题可能表述不当或无法回答，系统会回溯并从其父问题开始生成新的子问题序列。澄清树（ToC，Kim et al., 2023）用于解决原始问题（AQ，即根节点）中的歧义。从父节点出发，RAG 流程生成若干个可能的澄清问题（通常包含更多细节），形成子节点。如果澄清问题与 AQ 无关，则可以通过 LLM 自验证将其剪枝。为了形成最终答案，系统会将树中所有问题的答案进行聚合。

常见问题及缓解措施。树状推理的三个独特挑战。首先，为了允许回溯和剪枝，树状结构会在内存中存储大量节点，从而造成显著的空间开销。缓解措施通常涉及剪枝或限制树的生长。例如，ToT 会丢弃评估分数低的节点（Yao，2023），而（Xie，2023）则仅扩展每一层的前 K 个节点。此外，诸如 A* 和 MCTS 之类的智能搜索算法，除了考虑每个节点当前的估计质量外，还会考虑其未来的潜力，从而实现更智能的节点选择。然而，它们也需要可靠的评估启发式方法或成本高昂的部署。第二个挑战是节点评估的可靠性，这通常由LLM执行。然而，LLM 可能存在某些偏差，导致评估不准确（Wataoka，2025；Ye，2024）。例如，在 RAP 中（Hao，2023），使用生成树节点的同一 LLM 作为评估器可能会受到自身偏好偏差的影响，即 LLM 更倾向于它认为困惑度低的文本（Wataoka，2025）。使用不同的 LLM，例如在 A-Decoding* 中（Chatziveroglou，2025），可以缓解这种偏差，但无法消除其他类型的偏差。缓解措施包括将自评估与外部信号（例如执行反馈（Zhou et al., 2024）或检索的证据（Xu et al., 2024））相结合；或者集成多个评估，例如通用自洽性（Chen et al., 2024）；或者将激进的剪枝延迟到搜索后期，以便获得更多证据。第三个挑战是蒙特卡罗树搜索（MCTS）中重复部署以估计节点值的高计算成本。一些方法，例如 I-MCTS（Liang et al., 2025），用直接的 LLM 评估代替完整的部署。其他方法（Li & Ng, 2025）使用轻量级模型或启发式函数来近似部署结果，并将昂贵的 LLM 推理保留给最有希望的候选节点。这些策略在保留 MCTS 探索优势的同时，大幅降低了计算开销。

有前景的研究方向

元推理：学习选择推理策略。

高效的多路径推理。

多模态和RAG系统中的基于树推理。