摘要

语言模型越来越多地被部署用于解决各种任务中的一般问题，但在推理过程中仍然局限于token级别的从左到右的决策过程。这意味着他们可能无法完成需要探索、战略前瞻或初始决策发挥关键作用的任务。为了克服这些挑战，我们引入了一种新的语言模型推理框架"思维树"（ToT），它概括了流行的"思维链"方法来提示语言模型，并能够探索连贯的文本单元（"思维"），作为解决问题的中间步骤。ToT允许LMs通过考虑多个不同的推理路径和自我评估选择来进行深思熟虑的决策，以决定下一步行动，并在必要时前瞻或回溯以做出全局选择。我们的实验表明，ToT显著提高了语言模型在三项需要非琐碎计划或搜索的新任务上的解决问题能力：24小时游戏、创意写作和迷你交叉词。例如，在《24小时游戏》中，具有思维链提示的GPT-4只解决了4%的任务，而我们的方法的成功率为74%。带有所有提示的代码库：https://github.com/ysymyth/tree-of-thought-llm.

1 引言

2 背景

3 思维树：用LM进行深思熟虑的问题解决

4 实验

5 相关工作

6 讨论

限制和未来方向 。对于GPT-4已经擅长的许多现有任务来说，像ToT这样的深思熟虑的搜索可能不是必要的，作为最初的一步，这项工作只探索了三个相对简单的任务，这些任务挑战了GPT-4，并呼吁将更好的搜索和规划能力与LMs结合起来。然而，随着我们开始为更多现实世界的决策应用（如编码、数据分析、机器人等）部署LM，可能会出现更复杂的任务，并为研究这些研究问题提供新的机会。此外，像ToT这样的搜索方法需要比采样方法更多的资源（例如GPT-4 API成本）来提高任务性能，但ToT的模块化灵活性允许用户定制这种性能成本权衡，正在进行的开源努力在不久的将来应该很容易降低这种成本。最后，这项工作的重点是使用现成的LM，使用ToT风格的高级反事实决策对LM进行微调（例如，考虑下一段的潜在选择，而不是预测下一个token）可能会为提高LM的解决问题能力提供机会。
更广泛的影响 。ToT是一个使LMs能够更自主、更智能地做出决策和解决问题的框架。虽然目前的任务仅限于推理和搜索问题，但未来涉及与外部环境或人类互动的应用可能会带来潜在的危险，例如促进LMs的有害使用。另一方面，ToT还提高了模型决策的可解释性和人类对齐的机会，因为生成的表示是可读的、高级语言推理，而不是隐式的、低级的token值。
结论。LMs的关联"系统1"可以通过基于搜索问题解决方案的可能路径树的"系统2"进行有益的扩展。思维树框架提供了一种将关于解决问题的经典见解转化为当代LMs可操作方法的方法。同时，LM解决了这些经典方法的弱点，提供了一种解决不容易形式化的复杂问题的方法，例如创造性写作。我们认为，LMs与人工智能经典方法的交叉是未来工作的一个令人兴奋的方向。