基于树结构突破大模型自身能力

相关论文:

  1. Tree of thoughts: Deliberate problem solving with large language models. Ad-
  2. vances in neural information processing systems, 36:11809--11822, 2023.
  3. Large language model guided tree-of-thought. arXiv preprint arXiv:2305.08291, 2023.
  4. Scaling llm test-time compute optimally can be more effective than scaling model parameters. arXiv preprint arXiv:2408.03314, 2024.
  5. Tree search for language model agents. arXiv preprint arXiv:2407.01476, 2024.
  6. Language agent tree search unifies reasoning, acting, and planning in language models. In International Conference on Machine Learning, pp. 62138--62160. PMLR, 2024.
  7. Deepseek-prover-v1. 5: Harnessing proof assistant feedback
  8. for reinforcement learning and monte-carlo tree search. arXiv preprint arXiv:2408.08152, 2024.

当前大语言模型在复杂推理、规划与决策领域 的一些重要前沿进展。它们核心是探索如何通过不同的树形结构搜索算法测试时计算分配,来突破模型自身能力的限制。

论文/技术名称 核心目标 关键方法/思路
思维树 (Tree of Thoughts, ToT) -1-6 提升LLM在需要多步规划、探索和回溯的复杂问题上的解决能力。 将问题解决过程建模为一棵树,每个节点是一个连贯的思维单元(中间步骤)。模型通过启发式评估 在树中进行系统性搜索(如BFS/DFS)。
大语言模型引导的思维树 (LLM Guided ToT) 在ToT框架基础上,更具体地利用LLM自身能力来引导树的构建与搜索。 通常由LLM负责生成思维节点评估思维质量 ,并决定搜索方向,实现自我引导的推理。
语言代理树搜索 (Language Agent Tree Search, LATS) -9 将推理、行动和规划统一在语言代理中,使其能通过与环境互动并从反馈中学习。 蒙特卡罗树搜索 应用于语言代理,把预训练LLM用作代理、价值函数和优化器 ,并结合外部环境反馈
DeepSeek-Prover-V1.5 -5-10 专门用于解决形式化的数学定理证明问题,追求更高的证明成功率。 结合大规模数学预训练 、基于证明助手反馈的强化学习蒙特卡洛树搜索变体,鼓励对证明路径进行多样化探索。
测试时计算扩展 -3-8 研究如何在推理阶段(而非增加模型参数)更优地分配计算资源,以提升性能。 探索不同的计算分配范式,例如并行扩展 (同时探索多条路径)或将其形式化为一个可优化的图搜索问题

这些工作并非孤立,你可以把它们看作是一系列为解决LLM复杂推理问题,在方法和思路上不断演进的探索:

  • 从链到树 :经典的 思维链(CoT)线性的、单路径 的推理。而上述研究普遍转向树形结构 ,允许模型在推理时探索多种可能性 ,并通过前瞻和回溯做出更优的全局决策-1-6

  • 从静态到动态 :早期的树结构可能是预先设定或一次性构建的。新的趋势是动态构建 搜索树,根据实时推理的中间结果(例如对当前步骤的置信度)来调整探索方向-2

  • 从纯推理到与环境交互 :像LATS -9这样的框架,不仅让模型在"脑内"思考,还引入了与环境交互 并获得反馈的机制,这使得模型能解决更现实的任务(如网页导航)。

  • 从单一模型到多模型协作 :在测试时计算扩展的前沿研究中,出现了将多个不同模型 通过特定拓扑结构组织起来 共同解决问题的思路,旨在最优配置计算资源-8

相关推荐
诗句藏于尽头3 小时前
MediaPipe+OpenCV的python实现交互式贪吃蛇小游戏
人工智能·python·opencv
汽车仪器仪表相关领域3 小时前
汽车排放检测的 “模块化核心”:HORIBA OBS-ONE GS Unit 气体分析单元技术解析
大数据·人工智能·功能测试·车载系统·汽车·安全性测试·汽车检测
恒点虚拟仿真4 小时前
“AI+XR”赋能智慧研创中心:告别AI焦虑,重塑教师未来
人工智能·xr·虚拟仿真·虚拟仿真教学·xr研创中心·数字教师·未来教师
化作星辰4 小时前
深度学习_原理和进阶_PyTorch入门(2)后续语法2
pytorch·深度学习·学习
2501_938931254 小时前
解构AI营销获客工具的四大智能中枢与价值逻辑
人工智能·机器学习·自动驾驶
Liquad Li4 小时前
汽车配件 AI 系统:重构汽车配件管理与多语言内容生成新范式
人工智能
小白狮ww4 小时前
VASP 教程:使用 VASP 进行机器学习力场训练
人工智能·深度学习·机器学习·大模型·分子动力学·计算机程序·vasp
ayingmeizi1634 小时前
重构增长:生成式AI如何将CRM打造为企业的销售大脑
人工智能·重构
TG:@yunlaoda360 云老大4 小时前
火山引擎数智平台VeDI重磅发布“AI助手”:以大模型驱动数据飞轮,赋能非技术人员高效“看数、用数”
人工智能·信息可视化·火山引擎