基于树结构突破大模型自身能力

相关论文:

  1. Tree of thoughts: Deliberate problem solving with large language models. Ad-
  2. vances in neural information processing systems, 36:11809--11822, 2023.
  3. Large language model guided tree-of-thought. arXiv preprint arXiv:2305.08291, 2023.
  4. Scaling llm test-time compute optimally can be more effective than scaling model parameters. arXiv preprint arXiv:2408.03314, 2024.
  5. Tree search for language model agents. arXiv preprint arXiv:2407.01476, 2024.
  6. Language agent tree search unifies reasoning, acting, and planning in language models. In International Conference on Machine Learning, pp. 62138--62160. PMLR, 2024.
  7. Deepseek-prover-v1. 5: Harnessing proof assistant feedback
  8. for reinforcement learning and monte-carlo tree search. arXiv preprint arXiv:2408.08152, 2024.

当前大语言模型在复杂推理、规划与决策领域 的一些重要前沿进展。它们核心是探索如何通过不同的树形结构搜索算法测试时计算分配,来突破模型自身能力的限制。

论文/技术名称 核心目标 关键方法/思路
思维树 (Tree of Thoughts, ToT) -1-6 提升LLM在需要多步规划、探索和回溯的复杂问题上的解决能力。 将问题解决过程建模为一棵树,每个节点是一个连贯的思维单元(中间步骤)。模型通过启发式评估 在树中进行系统性搜索(如BFS/DFS)。
大语言模型引导的思维树 (LLM Guided ToT) 在ToT框架基础上,更具体地利用LLM自身能力来引导树的构建与搜索。 通常由LLM负责生成思维节点评估思维质量 ,并决定搜索方向,实现自我引导的推理。
语言代理树搜索 (Language Agent Tree Search, LATS) -9 将推理、行动和规划统一在语言代理中,使其能通过与环境互动并从反馈中学习。 蒙特卡罗树搜索 应用于语言代理,把预训练LLM用作代理、价值函数和优化器 ,并结合外部环境反馈
DeepSeek-Prover-V1.5 -5-10 专门用于解决形式化的数学定理证明问题,追求更高的证明成功率。 结合大规模数学预训练 、基于证明助手反馈的强化学习蒙特卡洛树搜索变体,鼓励对证明路径进行多样化探索。
测试时计算扩展 -3-8 研究如何在推理阶段(而非增加模型参数)更优地分配计算资源,以提升性能。 探索不同的计算分配范式,例如并行扩展 (同时探索多条路径)或将其形式化为一个可优化的图搜索问题

这些工作并非孤立,你可以把它们看作是一系列为解决LLM复杂推理问题,在方法和思路上不断演进的探索:

  • 从链到树 :经典的 思维链(CoT)线性的、单路径 的推理。而上述研究普遍转向树形结构 ,允许模型在推理时探索多种可能性 ,并通过前瞻和回溯做出更优的全局决策-1-6

  • 从静态到动态 :早期的树结构可能是预先设定或一次性构建的。新的趋势是动态构建 搜索树,根据实时推理的中间结果(例如对当前步骤的置信度)来调整探索方向-2

  • 从纯推理到与环境交互 :像LATS -9这样的框架,不仅让模型在"脑内"思考,还引入了与环境交互 并获得反馈的机制,这使得模型能解决更现实的任务(如网页导航)。

  • 从单一模型到多模型协作 :在测试时计算扩展的前沿研究中,出现了将多个不同模型 通过特定拓扑结构组织起来 共同解决问题的思路,旨在最优配置计算资源-8

相关推荐
海兰几秒前
【第21篇-续】graph-Stream-Node改造为适配openAI模型示例
java·人工智能·spring boot·spring·spring ai
MobotStone5 分钟前
生成代码一分钟,填坑一小时?问题不在 AI,而在用法
人工智能
ccice016 分钟前
硬核技术解析:运用Gemini多步推理链,攻克办公场景中的复杂决策与风险矩阵构建(国内免费镜像实操)
人工智能·线性代数·矩阵
2601_959477917 分钟前
Vatee:数字化能力升级的全面观察
大数据·人工智能
@蔓蔓喜欢你8 分钟前
Web Components:构建可复用组件的未来
人工智能·ai
JGHAI8 分钟前
GEO优化:AI搜索时代的底层逻辑重构与中小企业实践路径
人工智能
庚昀◟10 分钟前
ClaudeCode安装教程,基础使用、进阶推荐
人工智能·python·ai
Deep-w10 分钟前
【目标检测系统网页版】基于YOLOv8的淡水鱼检测系统
人工智能·yolo·目标检测
2501_9311624310 分钟前
产业观察:AI民用化落地提速,优秘智能联合产业机构构建轻量化技术赋能体系
人工智能·ai技术·技术落地
赴山海bi12 分钟前
DeepBI赋能:家居类亚马逊Listing优化全攻略
大数据·人工智能