智能体系列（二）:规划（Planning）：从 CoT、ToT 到动态采样与搜索

引言：从"直觉反应"到"深思熟虑"

在 2026 年的智能体架构设计中，我们不再仅仅满足于大语言模型（LLM）的"秒回"。对于复杂的软件架构设计、多步逻辑推演或不确定环境下的策略博弈，我们更希望 AI 像人类专家一样：先思考、后行动。

这种"慢思考"能力的核心，就是规划（Planning）。

本文将深入探讨智能体规划算法的演进路径：从最基础的线性思维链（CoT），到树状搜索（ToT），再到借鉴了 AlphaGo 核心思想的蒙特卡洛树搜索（MCTS）与动态采样技术。我们将揭示如何通过算法设计，让 LLM 具备在虚拟空间中"推演未来"的能力。

一、线性规划的起点：思维链（CoT）及其局限

1.1 CoT：显性化的中间推理

2022 年底提出的 Chain of Thought (CoT) 是智能体规划能力的萌芽。其核心逻辑非常朴素：通过提示词（如 "Let's think step by step"），迫使模型将概率性的"一次性输出"拆解为"步骤化推理"。

计算等价性： CoT 的本质是增加了模型推理时的计算量（Token 数），通过空间（上下文）换取时间（思维深度）。
工程价值： 它是目前大多数简单 Agent 工作流的基础，能够显著提升数学和简单逻辑问题的准确率。

1.2 线性模型的致命伤：单向不可逆

CoT 是线性的。在复杂的系统工程中，如果模型在第二步产生了一个微小的逻辑偏差，这个错误会随着推理链条不断放大。由于缺乏**回溯（Backtracking）**机制，线性 CoT 无法在发现后续结果荒谬时自发地修正初始错误。

二、空间的拓展：思维树（Tree of Thoughts, ToT）

为了克服线性逻辑的局限，2023 年出现的 Tree of Thoughts (ToT) 框架将规划带入了多维空间。

2.1 ToT 的四要素架构

ToT 将推理过程建模为一个在树状空间中寻找最优解的过程，它定义了四个关键组件：

思维分解（Thought Decomposition）： 将总任务拆解为若干个中间步骤（节点）。
思维生成（Thought Generator）： 在当前状态下，利用 LLM 生成 $k$ 个可能的下一步。
状态评估（State Evaluator）： 利用 LLM 作为"裁判"，对当前每个节点的状态进行评价（通常分为：Sure/Maybe/Impossible）。
搜索算法（Search Algorithm）： 使用广度优先搜索（BFS）或深度优先搜索（DFS）来决定接下来探索哪个节点。

2.2 搜索思维：允许后悔的系统

ToT 的伟大之处在于它引入了全局视野。当 DFS 搜索到某一个分支发现"Impossible"时，系统会回溯到父节点，尝试另一个分支。这种"试错"机制是实现复杂逻辑闭环的前提。

三、深度进化：AlphaGo 思维引入文本推理

2025 年至 2026 年，最前沿的 Agent 规划算法开始大规模引入 MCTS（蒙特卡洛树搜索）。这一曾让 AlphaGo 击败李世石的战术，正在 NLP 领域焕发第二春。

3.1 为什么是 MCTS？

在无限的语言空间中，完全的 BFS 或 DFS 搜索成本极高（Token 爆炸）。MCTS 通过一种聪明的采样策略，在"探索未知路径"与"利用已知优路径"之间取得了平衡。

3.2 文本 MCTS 的四个循环阶段

选择（Selection）： 基于 PUCT 算法（Predictor + Upper Confidence Bound applied to Trees）选择最有潜力的思维片段。
扩展（Expansion）： 在选定片段后生成新的推理可能性。
评价（Evaluation/Simulation）： 利用 过程奖励模型（PRM） 或价值函数为当前节点打分。
反向传播（Backpropagation）： 将价值分数传回整条推理链，更新路径权重。

3.3 价值函数（Value Function）的引入

在 2026 年的实现中，我们不再仅仅让 LLM 评价"好不好"，而是训练专门的判别式模型（Discriminator）来预测该路径最终达成目标的概率。这种"前瞻性"评分让 Agent 具备了更强的策略感。

四、动态采样与 Test-time Compute

一个核心的技术趋势是：用计算量换取智能（Scaling Laws at Test-time）。

4.1 动态采样策略

Agent 不再对所有问题都进行昂贵的树搜索。系统会根据任务难度自动切换：

直觉模式： 简单问题直接采样（One-shot）。
反思模式： 中等难度采用 Self-Correction 循环。
搜索模式： 复杂长任务触发大规模 MCTS 搜索。

4.2 过程奖励模型（PRM）的角色

在规划过程中，PRM 对推理的每一个中间 Step 进行即时评分。这解决了传统 RAG 中"由于最终结果对而忽略中间逻辑错误"的幻觉问题。

五、原型实现：构建一个基于 ToT 的求解器

在技术实战中，我们通过一个简化的伪代码示例展示如何实现一个具有回溯能力的 ToT 规划器。

复制代码

class Node:
    def __init__(self, state, parent=None):
        self.state = state  # 当前推理的状态/文本
        self.parent = parent
        self.children = []
        self.score = 0

def tot_planning_search(initial_prompt, max_steps=5):
    root = Node(state=initial_prompt)
    queue = [root]
    
    for step in range(max_steps):
        current_node = queue.pop(0) # BFS 策略
        
        # 1. 生成候选项 (Expansion)
        candidates = llm_generate_thoughts(current_node.state, n=3)
        
        for cand in candidates:
            # 2. 评估候选项 (Evaluation)
            score = llm_evaluate_state(cand)
            new_node = Node(state=cand, parent=current_node)
            new_node.score = score
            
            if score > THRESHOLD: # 剪枝：只保留高潜力节点
                current_node.children.append(new_node)
                queue.append(new_node)
                
            if is_goal_reached(cand): # 达成目标
                return backtrace_path(new_node)
                
    return "Search failed"

六、 2026 年的工程挑战：成本、延迟与收敛

尽管规划算法大幅提升了 Agent 的上限，但在工程落地中仍面临三大挑战：

Token 消耗： 一次深度 MCTS 搜索可能消耗数万甚至数十万 Token。
响应延迟（Latency）： 树搜索需要多轮 LLM 调用，难以满足实时交互需求。（注：2026 年多采用推测采样或并行推理机硬件来缓解此问题）。
搜索空间爆炸： 如果思维拆解粒度过细，搜索树会迅速失控。如何定义合适的"思维步长"是架构师的功力所在。

七、结语

规划（Planning）是智能体从"聊天工具"向"解决问题工具"跨越的灵魂。从线性 CoT 的初级尝试，到 ToT 的空间拓展，再到 MCTS 的深度搜索，我们正在赋予 AI 一种前所未有的逻辑稳定性。

在下一篇文章中，我们将探讨：当 Agent 具备了强大的规划能力后，如何确保它在长时间运行中不会忘记初始意图？

✨ 互动环节：

在你的项目中，是否遇到过 Agent "逻辑掉线"的情况？你认为引入回溯机制（Backtracking）最难的地方在于评估器的准确性还是 Token 的成本？欢迎在评论区留言讨论。