基于树结构突破大模型自身能力

相关论文:

  1. Tree of thoughts: Deliberate problem solving with large language models. Ad-
  2. vances in neural information processing systems, 36:11809--11822, 2023.
  3. Large language model guided tree-of-thought. arXiv preprint arXiv:2305.08291, 2023.
  4. Scaling llm test-time compute optimally can be more effective than scaling model parameters. arXiv preprint arXiv:2408.03314, 2024.
  5. Tree search for language model agents. arXiv preprint arXiv:2407.01476, 2024.
  6. Language agent tree search unifies reasoning, acting, and planning in language models. In International Conference on Machine Learning, pp. 62138--62160. PMLR, 2024.
  7. Deepseek-prover-v1. 5: Harnessing proof assistant feedback
  8. for reinforcement learning and monte-carlo tree search. arXiv preprint arXiv:2408.08152, 2024.

当前大语言模型在复杂推理、规划与决策领域 的一些重要前沿进展。它们核心是探索如何通过不同的树形结构搜索算法测试时计算分配,来突破模型自身能力的限制。

论文/技术名称 核心目标 关键方法/思路
思维树 (Tree of Thoughts, ToT) -1-6 提升LLM在需要多步规划、探索和回溯的复杂问题上的解决能力。 将问题解决过程建模为一棵树,每个节点是一个连贯的思维单元(中间步骤)。模型通过启发式评估 在树中进行系统性搜索(如BFS/DFS)。
大语言模型引导的思维树 (LLM Guided ToT) 在ToT框架基础上,更具体地利用LLM自身能力来引导树的构建与搜索。 通常由LLM负责生成思维节点评估思维质量 ,并决定搜索方向,实现自我引导的推理。
语言代理树搜索 (Language Agent Tree Search, LATS) -9 将推理、行动和规划统一在语言代理中,使其能通过与环境互动并从反馈中学习。 蒙特卡罗树搜索 应用于语言代理,把预训练LLM用作代理、价值函数和优化器 ,并结合外部环境反馈
DeepSeek-Prover-V1.5 -5-10 专门用于解决形式化的数学定理证明问题,追求更高的证明成功率。 结合大规模数学预训练 、基于证明助手反馈的强化学习蒙特卡洛树搜索变体,鼓励对证明路径进行多样化探索。
测试时计算扩展 -3-8 研究如何在推理阶段(而非增加模型参数)更优地分配计算资源,以提升性能。 探索不同的计算分配范式,例如并行扩展 (同时探索多条路径)或将其形式化为一个可优化的图搜索问题

这些工作并非孤立,你可以把它们看作是一系列为解决LLM复杂推理问题,在方法和思路上不断演进的探索:

  • 从链到树 :经典的 思维链(CoT)线性的、单路径 的推理。而上述研究普遍转向树形结构 ,允许模型在推理时探索多种可能性 ,并通过前瞻和回溯做出更优的全局决策-1-6

  • 从静态到动态 :早期的树结构可能是预先设定或一次性构建的。新的趋势是动态构建 搜索树,根据实时推理的中间结果(例如对当前步骤的置信度)来调整探索方向-2

  • 从纯推理到与环境交互 :像LATS -9这样的框架,不仅让模型在"脑内"思考,还引入了与环境交互 并获得反馈的机制,这使得模型能解决更现实的任务(如网页导航)。

  • 从单一模型到多模型协作 :在测试时计算扩展的前沿研究中,出现了将多个不同模型 通过特定拓扑结构组织起来 共同解决问题的思路,旨在最优配置计算资源-8

相关推荐
NAGNIP1 天前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab1 天前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab1 天前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP1 天前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年1 天前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼1 天前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS1 天前
Kimi Chat Completion API 申请及使用
前端·人工智能
warm3snow1 天前
Claude Code 黑客马拉松:5 个获奖项目,没有一个是"纯码农"做的
ai·大模型·llm·agent·skill·mcp
天翼云开发者社区1 天前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈1 天前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能