基于树结构突破大模型自身能力

相关论文：

Tree of thoughts: Deliberate problem solving with large language models. Ad-
vances in neural information processing systems, 36:11809--11822, 2023.
Large language model guided tree-of-thought. arXiv preprint arXiv:2305.08291, 2023.
Scaling llm test-time compute optimally can be more effective than scaling model parameters. arXiv preprint arXiv:2408.03314, 2024.
Tree search for language model agents. arXiv preprint arXiv:2407.01476, 2024.
Language agent tree search unifies reasoning, acting, and planning in language models. In International Conference on Machine Learning, pp. 62138--62160. PMLR, 2024.
Deepseek-prover-v1. 5: Harnessing proof assistant feedback
for reinforcement learning and monte-carlo tree search. arXiv preprint arXiv:2408.08152, 2024.

当前大语言模型在复杂推理、规划与决策领域 的一些重要前沿进展。它们核心是探索如何通过不同的树形结构搜索算法 或测试时计算分配，来突破模型自身能力的限制。

论文/技术名称	核心目标	关键方法/思路
思维树 (Tree of Thoughts, ToT) -1 -6	提升LLM在需要多步规划、探索和回溯的复杂问题上的解决能力。	将问题解决过程建模为一棵树，每个节点是一个连贯的思维单元（中间步骤）。模型通过启发式评估在树中进行系统性搜索（如BFS/DFS）。
大语言模型引导的思维树 (LLM Guided ToT)	在ToT框架基础上，更具体地利用LLM自身能力来引导树的构建与搜索。	通常由LLM负责生成思维节点、评估思维质量，并决定搜索方向，实现自我引导的推理。
语言代理树搜索 (Language Agent Tree Search, LATS) -9	将推理、行动和规划统一在语言代理中，使其能通过与环境互动并从反馈中学习。	将蒙特卡罗树搜索应用于语言代理，把预训练LLM用作代理、价值函数和优化器，并结合外部环境反馈。
DeepSeek-Prover-V1.5 -5 -10	专门用于解决形式化的数学定理证明问题，追求更高的证明成功率。	结合大规模数学预训练、基于证明助手反馈的强化学习和蒙特卡洛树搜索变体，鼓励对证明路径进行多样化探索。
测试时计算扩展 -3 -8	研究如何在推理阶段（而非增加模型参数）更优地分配计算资源，以提升性能。	探索不同的计算分配范式，例如并行扩展（同时探索多条路径）或将其形式化为一个可优化的图搜索问题。

这些工作并非孤立，你可以把它们看作是一系列为解决LLM复杂推理问题，在方法和思路上不断演进的探索：

从链到树 ：经典的 思维链（CoT） 是线性的、单路径 的推理。而上述研究普遍转向树形结构 ，允许模型在推理时探索多种可能性 ，并通过前瞻和回溯做出更优的全局决策-1 -6。
从静态到动态 ：早期的树结构可能是预先设定或一次性构建的。新的趋势是动态构建 搜索树，根据实时推理的中间结果（例如对当前步骤的置信度）来调整探索方向-2。
从纯推理到与环境交互 ：像LATS -9这样的框架，不仅让模型在"脑内"思考，还引入了与环境交互 并获得反馈的机制，这使得模型能解决更现实的任务（如网页导航）。
从单一模型到多模型协作 ：在测试时计算扩展的前沿研究中，出现了将多个不同模型 通过特定拓扑结构组织起来 共同解决问题的思路，旨在最优配置计算资源-8。