从思维链到思维树：一步步解锁大语言模型的推理能力

1. 为什么大模型也需要"学"会思考？

尽管大语言模型（LLMs）在处理海量信息和生成流畅文本方面表现出色，但它们常常在需要复杂推理的任务上遇到困难，例如数学应用题、常识问答和战略规划。研究表明，仅仅扩大模型规模并不足以让模型在算术、常识和符号推理等挑战性任务上取得优异表现。

然而，模型的推理能力并非遥不可及。通过特定的"提示技术"（Prompting Techniques），我们可以引导模型模拟人类的思考方式，从而解锁其潜在的推理能力。本文将以初学者友好的方式，循序渐进地介绍这些技术的发展历程，从基础的"思维链"（Chain of Thought）到更高级的"自我一致性"（Self-Consistency）和"思维树"（Tree of Thoughts）。

2. 基础：思维链 (Chain-of-Thought, CoT) - 教会模型"如何思考"

2.1. 传统提示 (Standard Prompting) 的局限性

在标准的提示方法中，我们只给模型展示问题和最终答案的范例，期望它能直接模仿。然而，对于需要多步推理的问题，这种方法常常导致模型"一步错，步步错"。

例如，面对下面这个简单的数学题，使用标准提示的模型给出了错误的答案：

Q: The cafeteria had 23 apples. If they used 20 to make lunch and bought 6 more, how many apples do they have?

A: The answer is 27.

模型很可能进行了简单但错误的计算，因为它没有被引导去分解问题，而是试图一步到位地猜测答案。

2.2. 思维链的诞生：展示思考过程

思维链（Chain-of-Thought, CoT）提示的核心原则非常直观：在范例中，不仅仅给出最终答案，而是展示通往答案的、一步一步的推理过程。

对于同样的问题，CoT 范例会是这样：

Q: The cafeteria had 23 apples. If they used 20 to make lunch and bought 6 more, how many apples do they have?

A: The cafeteria had 23 apples originally. They used 20 to make lunch. So they had 23 - 20 = 3. They bought 6 more apples, so they have 3 + 6 = 9. The answer is 9.

通过学习这个过程，模型领悟到需要将新问题分解为更小、更易于管理的部分，并按逻辑顺序解决它们，最终得出正确的答案。

2.3. CoT 的惊人效果

这种简单的方法带来了显著的性能提升。以 PaLM 540B 模型在 GSM8K 数学基准测试上的表现为例，CoT 的效果显而易见：

Standard Prompting: 18% 解题成功率
Chain-of-Thought Prompting: 57% 解题成功率

总而言之，CoT 通过生成导向最终答案的自然语言"推理步骤"（rationales）来工作。值得注意的是，这种推理能力通常只在非常大规模的模型中才会"涌现"。

3. 进阶：自我一致性 (Self-Consistency, SC) - "少数服从多数"的智慧

3.1. CoT 的不足之处

基础的 CoT 方法有一个明显的局限性：它只生成一条推理路径。如果这条路径中的任何一个环节出现错误，最终的答案也必然是错误的。这使得推理过程显得有些"脆弱"。

3.2. 引入自我一致性：条条大路通罗马

自我一致性（Self-Consistency, SC）正是为了解决这个问题而提出的。其核心思想是：一个复杂问题通常有多种方法可以得到正确答案。如果不同的思考路径都指向同一个答案，那么这个答案的可信度就更高。

SC 的执行过程如下：

多样化采样 (Sample): 不再只生成一条"贪心"的推理路径（即在每一步都选择最显而易见的下一步），而是提示模型为同一个问题生成多个不同的推理路径。
汇总并投票 (Marginalize and Vote): 检查所有路径得出的最终答案。
选择最终答案 (Select): 将出现次数最多的答案作为最终的、最可靠的答案。

以"Janet 的鸭子"问题为例，模型可能生成了多个推理过程：有的路径计算出结果是"18"，有的算成了"26"，还有的算成了"14"。通过投票，SC 会选择出现频率最高的"18"作为最终答案。

3.3. SC 带来的显著提升

SC 极大地增强了 CoT 的性能和鲁棒性。在多个推理基准测试中，它都取得了显著的成绩提升：

GSM8K: +17.9%
SVAMP: +11.0%
AQuA: +12.2%
StrategyQA: +6.4%

4. 探索：思维树 (Tree of Thoughts, ToT) - 赋予模型规划与远见

4.1. CoT 和 SC 的共同局限

尽管 SC 提升了 CoT 的准确性，但两者都存在一个根本性的局限：它们的推理过程是线性的，从左到右一步步生成，无法"回头"。这意味着模型不能"向前看"来判断当前路径是否有前途，也无法在意识到早期错误后"退后"并探索其他可能性。

4.2. 思维树的革命：从"链"到"树"

思维树（Tree of Thoughts, ToT）框架通过将问题解决过程从一条"链"扩展为一棵"树"，从而克服了上述局限。

在 ToT 中，每一个"想法"（thought）都是一个连贯的中间步骤。模型不再局限于单一路径，而是可以：

探索多个分支 (Explore): 在问题的每个阶段，生成多个不同的想法或下一步行动方案。
自我评估 (Self-evaluate): 模型会评估每个分支在解决问题上取得的进展。
规划与决策 (Plan & Decide): 模型可以有策略地向前探索最有希望的分支，或者从"死胡同"中回溯，转而探索其他替代方案。

简而言之，ToT 将问题解决转化为在一棵充满可能性的推理路径树中进行搜索。

4.3. ToT 的威力：攻克难题

ToT 在需要复杂规划和探索的任务中表现尤为出色。以"24点游戏"为例，任务要求使用 4 个数字和基本算术运算得出 24。

GPT-4 with CoT: 4% 成功率
GPT-4 with ToT: 74% 成功率

这一惊人的对比表明，对于那些需要非平凡规划或搜索的难题，ToT 的能力远超线性推理方法。

5. 总结与对比

为了方便快速回顾，下表总结了这三种技术的关键特性：

特性	思维链 (CoT)	自我一致性 (SC)	思维树 (ToT)
核心思想	模仿单一步骤推理过程。	对多种推理路径进行投票，取最一致的答案。	系统化地探索、评估和选择不同的推理路径。
推理过程	单一、线性的路径。	多条独立、线性的路径。	树状结构，支持探索、前瞻和回溯。
适用场景	需要多步推理的标准问题。	答案明确，但解法多样的复杂问题。	需要规划、探索或策略调整的开放性难题。
主要优势	简单有效，显著优于标准提示。	提升了CoT的鲁棒性和准确率。	能够解决CoT和SC无法解决的规划性问题。

6. 结语

从简单的"思维链"到复杂的"思维树"，我们见证了驱动大语言模型进行更深层次思考的方法论演进。这些技术不仅提升了模型在具体任务上的表现，更重要的是，它们推动 AI 从简单的文本生成器，向能够进行深思熟虑的问题解决者迈进。随着这些推理框架的不断发展，未来的 AI 将变得更加强大、可靠和易于理解。