基于树结构突破大模型自身能力

相关论文:

  1. Tree of thoughts: Deliberate problem solving with large language models. Ad-
  2. vances in neural information processing systems, 36:11809--11822, 2023.
  3. Large language model guided tree-of-thought. arXiv preprint arXiv:2305.08291, 2023.
  4. Scaling llm test-time compute optimally can be more effective than scaling model parameters. arXiv preprint arXiv:2408.03314, 2024.
  5. Tree search for language model agents. arXiv preprint arXiv:2407.01476, 2024.
  6. Language agent tree search unifies reasoning, acting, and planning in language models. In International Conference on Machine Learning, pp. 62138--62160. PMLR, 2024.
  7. Deepseek-prover-v1. 5: Harnessing proof assistant feedback
  8. for reinforcement learning and monte-carlo tree search. arXiv preprint arXiv:2408.08152, 2024.

当前大语言模型在复杂推理、规划与决策领域 的一些重要前沿进展。它们核心是探索如何通过不同的树形结构搜索算法测试时计算分配,来突破模型自身能力的限制。

论文/技术名称 核心目标 关键方法/思路
思维树 (Tree of Thoughts, ToT) -1-6 提升LLM在需要多步规划、探索和回溯的复杂问题上的解决能力。 将问题解决过程建模为一棵树,每个节点是一个连贯的思维单元(中间步骤)。模型通过启发式评估 在树中进行系统性搜索(如BFS/DFS)。
大语言模型引导的思维树 (LLM Guided ToT) 在ToT框架基础上,更具体地利用LLM自身能力来引导树的构建与搜索。 通常由LLM负责生成思维节点评估思维质量 ,并决定搜索方向,实现自我引导的推理。
语言代理树搜索 (Language Agent Tree Search, LATS) -9 将推理、行动和规划统一在语言代理中,使其能通过与环境互动并从反馈中学习。 蒙特卡罗树搜索 应用于语言代理,把预训练LLM用作代理、价值函数和优化器 ,并结合外部环境反馈
DeepSeek-Prover-V1.5 -5-10 专门用于解决形式化的数学定理证明问题,追求更高的证明成功率。 结合大规模数学预训练 、基于证明助手反馈的强化学习蒙特卡洛树搜索变体,鼓励对证明路径进行多样化探索。
测试时计算扩展 -3-8 研究如何在推理阶段(而非增加模型参数)更优地分配计算资源,以提升性能。 探索不同的计算分配范式,例如并行扩展 (同时探索多条路径)或将其形式化为一个可优化的图搜索问题

这些工作并非孤立,你可以把它们看作是一系列为解决LLM复杂推理问题,在方法和思路上不断演进的探索:

  • 从链到树 :经典的 思维链(CoT)线性的、单路径 的推理。而上述研究普遍转向树形结构 ,允许模型在推理时探索多种可能性 ,并通过前瞻和回溯做出更优的全局决策-1-6

  • 从静态到动态 :早期的树结构可能是预先设定或一次性构建的。新的趋势是动态构建 搜索树,根据实时推理的中间结果(例如对当前步骤的置信度)来调整探索方向-2

  • 从纯推理到与环境交互 :像LATS -9这样的框架,不仅让模型在"脑内"思考,还引入了与环境交互 并获得反馈的机制,这使得模型能解决更现实的任务(如网页导航)。

  • 从单一模型到多模型协作 :在测试时计算扩展的前沿研究中,出现了将多个不同模型 通过特定拓扑结构组织起来 共同解决问题的思路,旨在最优配置计算资源-8

相关推荐
Mountain and sea3 分钟前
从零搭建工业机器人激光切割+焊接产线:KUKA七轴协同+节卡AGV+视觉检测实战复盘
人工智能·机器人·视觉检测
山顶夕景5 分钟前
【VLM】HopChain视觉语言推理多跳数据合成框架
大模型·llm·cot·vlm·视觉模型
K姐研究社26 分钟前
阿里JVS Claw实测 – 手机一键部署 OpenClaw,开箱即用
人工智能·智能手机·aigc·飞书
卷积殉铁子26 分钟前
从“手动挡”到“自动驾驶”:OpenClaw如何让AI开发变成“说话就行”
人工智能
机器之心30 分钟前
扎克伯格正在打造自己的「AI分身」,并计划裁掉1.6万人
人工智能·openai
梦醒过后说珍重35 分钟前
炼丹笔记:感知超分辨率模型中复合损失权重的科学调参SOP
深度学习
机器之心36 分钟前
必看!Sebastian Raschka新博客盘点了所有主要注意力机制
人工智能·openai
CoovallyAIHub1 小时前
Pipecat:构建实时语音 AI Agent 的开源编排框架,500ms 级端到端延迟
深度学习·算法·计算机视觉
CoovallyAIHub1 小时前
Energies | 8版YOLO对8版Transformer实测光伏缺陷检测,RF-DETR-Small综合胜出
深度学习·算法·计算机视觉
Kel1 小时前
深入剖析 openai-node 源码:一个工业级 TypeScript SDK 的架构之美
javascript·人工智能·架构