AI核心知识56——大语言模型之ToT（简洁且通俗易懂版）

Tree of Thoughts (ToT / 思维树) 是提示工程（Prompt Engineering）中一种高级且强悍的推理框架。

如果说 Chain of Thought (CoT / 思维链) 是让 AI "一条路走到黑" 地线性思考，那么 ToT 就是让 AI 学会像人类大师一样**"深思熟虑、多步推演、甚至回头重来"**。

它是目前解决高难度复杂推理问题（如数学证明、创意写作、复杂代码架构）的最强手段之一。

为了理解 ToT，我们先看 AI 思考模式的进化史：

Input-Output (IO / 直接问答)：
- 模式：问题 → 答案。
- 缺陷：靠直觉瞎蒙，容易出错。
Chain of Thought (CoT / 思维链)：
- 模式：问题 → 步骤1 → 步骤2 → 步骤3 → 答案。
- 缺陷：线性思维 。一旦中间某一步走错了（比如步骤2算错了），后面就全错了，且 AI 不知悔改，只会硬着头皮继续错下去。
Tree of Thoughts (ToT / 思维树)：
- 模式：问题 → 步骤1 → {分支A, 分支B, 分支C} ...
- 优势：
  - 探索 (Exploration)：在每一个节点，AI 会构思出多种可能得下一步（分支）。
  - 评估 (Evaluation)：AI 会自我评估："分支 A 看起来不太对，分支 B 更有希望"。
  - 回溯 (Backtracking) ：如果发现分支 B 走不通了，AI 会掉头回来，去走分支 C。

一句话总结：ToT 允许 AI 在脑子里进行"预演"，如果不通就换条路，直到找到最优解。

在 PE 工程中，实施 ToT 通常需要通过代码（如 Python 脚本）配合 Prompt 来实现一个循环：

思维分解 (Decomposition)：
- 把一个大问题拆解成若干个小的思维步骤（Thought Steps）。
思维生成 (Thought Generation)：
- 在当前步骤，让 AI 生成 k 个可能的下一步。
- 例子：玩 24 点游戏，手牌是 4, 9, 10, 13。AI 生成："4+9=13", "13-10=3", "10/4=2.5" 等几种可能。
状态评估 (State Evaluation)：
- 让 AI（或者外部评分器）给这几个可能的下一步打分。
- 评估："10/4=2.5 产生了小数，对于算 24 点可能不利，低分"；"4+9=13 看起来不错，保留"。
搜索算法 (Search Algorithm)：
- 使用 BFS (广度优先搜索) 或 DFS (深度优先搜索) 来遍历这棵树。如果评估分数太低，就剪枝（Prune），不再继续往下想。

24 点游戏（用 4 个数字通过加减乘除算出 24）是测试 ToT 的经典考题。

CoT (思维链) 的表现：
- 它通常会试着算一下，如果第一步算错了（比如先算了 4+9=13，然后发现后面没法凑出 24），它就卡住了，最后强行胡编一个答案。
- 成功率：约 4%（在 GPT-4 早期测试中）。
ToT (思维树) 的表现：
- 它列出所有第一步的可能性。
- 它发现"先算 4+9"这条路走不通，于是回溯，尝试"先算 13-9"。
- 经过多轮推演，它找到了路径。
- 成功率 ：飙升至 74%。

虽然 ToT 强无敌，但它有一个巨大的缺点：贵且慢。

Token 消耗巨大：CoT 只需要生成 1 次回答。ToT 可能需要生成 10 次、100 次甚至更多次（因为要探索很多分支），Token 消耗量是指数级增长的。
延迟高：用户可能要等很久才能拿到答案。

因此，ToT 通常只用于那些"必须要对"、"逻辑极其复杂"且"不在乎时间成本"的任务（如数学证明、复杂代码架构设计、长篇小说大纲规划）。

Tree of Thoughts (ToT) 是 Prompt Engineering 从"话术技巧"迈向"算法工程"的标志。

它不仅仅是在写 Prompt，而是在用 Prompt 实现搜索算法 。它让 AI 拥有了人类最宝贵的思维品质：深思熟虑 和自我纠错。