107-agent调研 - 技术栈

摘要

分析推理是解题和决策背后的一种基本认知过程。

尽管大型语言模型（LLM）在封闭世界环境中展现出强大的推理能力，例如数学和代码，

但在开放性和动态环境中，它们却表现不佳。

首先，我们通过三个层次表征环境动态：

基础agent：建立了核心的单智能体能力，包括规划、工具使用和搜索，这些能力适用于稳定环境；

自我进化型agent：研究智能体如何通过反馈、记忆和适应，在不断变化的环境中优化自身能力；

集体agent：则将智能扩展到协作场景，多个智能体协同分工、共享知识并共同实现目标。

1.简介

经验表明，显式化中间推理的技术，如思维链提示、分解以及程序辅助求解，显著提升了推理性能。

2. 从大语言模型推理到agent推理

3. 基础代理推理

代理推理源于单个智能体的行为。在讨论适应与协作之前，我们先聚焦于单个智能体如何通过三个

核心组件将推理转化为结构化行动：规划、搜索，以及工具使用。在这种设定中，智能体并非被动

的文本生成器，而是一个自主的问题解决者：它制定计划，通过检索或环境搜索探索备选方案，并

借助工具执行有据可依的操作。这些机制共同构成了代理推理的基础，将抽象的深思熟虑与可验证

的行动紧密相连。

一个规范的基础工作流可以看作是一个迭代周期，该周期交错进行规划（目标分解与任务

制定）、工具使用 （调用外部系统或API以作用于世界）和搜索（检索与探索以支持决

策）。推理是贯穿这些阶段的组织原则，它决定何时规划、检索什么以及如何行动，从而

将静态推理转化为交互式决策。

通过分析这些组件，我们阐明了结构化推理如何将一个静态的LLM提升为一个自主的、目

标驱动的智能体。

3.1. 规划推理

规划是智能行为的核心组成部分，它使智能体能够分解问题、对决策进行排序，并以前瞻

性的方式在复杂环境中导航。最近的研究越来越多地探索大型语言模型 (LLM) 的背景下进行规划，

无论是作为自主智能体，还是作为更广泛系统中的组件。

在本节中，我们将现有用于智能体规划推理的工作分为六种方法论风格，每种类别都突出了

支持复杂智能体推理的独特规划策略。

3.1.1 规划(非微调)

工作流设计

工作流的使用过程拆解为以下几个具体场景的例子：

1. 通用任务处理：计划与行动（Plan-and-Act）

这是最基础的工作流模式。系统不会直接给出答案，而是将任务分解为不同阶段：

感知（Perception）： 代理首先分析用户的原始指令（例如："帮我分析这两家公司的财报并对比风险"）。
规划（Reasoning/Planning）： 代理生成一个子任务列表：1. 下载 A 公司财报；2. 下载 B 公司财报；3. 提取关键财务指标；4. 进行对比分析 (p. 11)。
执行（Execution）： 代理调用搜索工具或 PDF 解析工具。
验证（Verification）： 代理检查提取的数据是否准确，若发现缺失，则返回执行阶段重试。

2. 网络自动化：观察-推理-行动循环

在网页操作（如自动订票）中，工作流表现为一种**反应式控制器（Reactive Controller）**的闭环过程：

观察（Inspect）： 代理"查看"当前的网页 DOM 结构或截图。
推理（Reason）： 基于当前页面（如：正在登录界面），决定下一步操作（如：输入密码）。
行动（Act）： 点击按钮或输入文本 (p. 11)。
适应（Observe/Adapt）： 观察点击后的新页面。如果弹出了验证码，工作流会动态调整示例（In-context examples），进入处理验证码的特殊子流程 (p. 11)。

3. 代码开发：递归分解与测试

在处理复杂的编程任务时，工作流通常是层次化的：

分解： 将一个大型项目需求（如：写一个博客系统）递归地分解为可编译、可编辑的微小单元（如：数据库连接模块、用户登录接口） (p. 12)。
循环： 代理决定立即执行某段代码，读取输出或错误日志。
细化： 如果代码报错，工作流会引导代理进入"自我修复"阶段，根据错误信息逐步改进代码 (p. 11)。

4. 机器人控制：实时干预

在物理环境或机器人操作中，工作流强调安全与实时调整：

监控： 工作流中包含专门的监控器（Monitors）。
干预： 如果机器人即将撞到障碍物，监控器会触发即时的安全干预措施，动态调整原本的路径子目标 (p. 11)。

这种方法具有广泛的适用性，但长期运行时可能会累积误差，因此需要在工作流中引入增量验证和记忆机制，以稳定执行过程。

树搜索

1. Tree Search (树搜索) ------ "推演所有可能的后果"

论文核心： 传统的 AI 是一条路走到黑（线性思考），而树搜索让 AI 在遇到困难决策时，像下围棋一样，在脑子里把各种可能性都"推演"一遍。

例子：解一道复杂的奥数题
- 根节点： 题目本身。
- 分支（子路径）：
  - 路径 A：尝试用代数法。推演两步发现计算量太大，回溯（Backtrack）。
  - 路径 B：尝试用几何法。推演三步发现辅助线画对了，但公式记不清，剪枝（Pruning，放弃这条路）。
  - 路径 C：尝试分类讨论。发现逻辑通顺，继续向下探索。
- 评估： AI 会给每条路径打分，最后选出得分最高（成功概率最大）的那条路作为最终答案。
- 经典算法： 文中提到的 ToT (Tree of Thoughts) 就是这个逻辑------让 AI 像玩剧本杀一样，在多个平行时空里试错，最后选最优解。

2. Algorithm Simulation (算法模拟) ------ "给自己写一套标准操作流程"

论文核心： 面对极高难度的任务，直接猜答案容易错。AI 先把任务抽象成一个已知的"经典算法（如：深度优先搜索、动态规划）"，然后一步步模拟这个算法的执行过程。

例子：帮你在 100 封邮件里找出"包含离职意向且情绪最激烈"的那一封
- 模拟过程：
  1. 定义算法： AI 告诉自己："我现在要执行一个'最大值查找算法'。我会维护一个变量 Max_Intensity。"
  2. 模拟迭代：
    - 读取第 1 封邮件，打分 50，记录为当前最强。
    - 读取第 2 封邮件，打分 30，忽略。
    - 读取第 3 封邮件，发现是"我要辞职，给老子爬！"，打分 99，更新 Max_Intensity。
  3. 最终输出： 模拟完所有步骤后，输出结果。
- 为什么这么做？ 因为直接让 AI "找最激烈的"，它可能会漏看。但如果强迫它按照一个确定的算法逻辑（比如排序或筛选算法）去"跑一遍"，准确率会大幅提升。

两者的区别：

Tree Search 侧重于**"探索"**：在不知道路在哪时，多试几条路，看哪条能通。
Algorithm Simulation 侧重于**"严谨"**：已经知道逻辑框架了，通过像计算机一样一步步执行代码逻辑，来避免低级逻辑错误。

简单来说，树搜索 是"多想几种办法"，算法模拟是"按规章制度办事"。

过程形式化（Process Formalization）--- 紧箍咒

这个词听起来吓人，其实就是**"把大白话翻译成数学公式或代码"**。

Process Formalization（过程形式化） 的核心逻辑是：人类语言太模糊，容易让 AI 产生歧义；如果把任务变成一种严格的逻辑推导，AI 就不容易出错。

这里有三个生活化的例子帮你理解：

1. 例子：自动驾驶导航（从"模糊"到"精确"）

模糊指令（非形式化）： "在前边那个路口稍微靠右转，避开人多的地方。"（AI 可能会困惑：多远是前边？稍微靠右是多少度？）
过程形式化（Formalization）：
- 定义状态空间： 当前坐标 \((x, y)\)，速度 \(v\)。
- 定义约束： 距离行人 \(d > 1.5m\)。
- 定义动作： 转向角 \(\theta = 15^\circ\)。
- 结果： AI 不再是"感觉"在开车，而是在计算满足约束条件的最优路径方程。

2. 例子：法律条文判定（逻辑化）

模糊描述： "如果张三偷了东西且情节严重，就该判刑。"
过程形式化：
- 将法律逻辑转化为 IF-THEN 语句：
  - IF (Action == "Theft") AND (Value > 5000 OR Method == "Violence")
  - THEN (Verdict = "Guilty")
- 论文意义： 这样 AI 就像运行一段程序一样去判定，而不是靠直觉猜。

3. 例子：解决数学难题（Lean/Coq 语言）

论文中常提到 Formal Methods。

普通 AI： "我觉得这道题的答案是 5，因为中间步骤大概是这样..."
形式化 AI： 它会把数学证明写成一种计算机能运行的语言（如 Lean）。
- 每一行证明必须符合逻辑公理，如果不符合，系统会直接报错。
- 结果： 只要程序能运行通，这个逻辑就绝对正确。

总结：为什么要"形式化"？

论文里之所以强调这个，是因为 AI 容易"一本正经地胡说八道"。

Process Formalization 就像是给 AI 戴上了一个**"逻辑紧箍咒"**：

输入： 混乱的现实需求。
过程： 转化成逻辑符号、状态方程或编程代码。
输出： 严丝合缝、可被验证的结论。

一句话总结： 它就是把"凭感觉办事"变成了"按公式推导"。

解耦 / 分解（Decoupling / Decomposition）

这两个词其实就是**"分家"** 和**"拆解"**，是把一个"大泥团"变成一堆"乐高积木"的过程。

我们用**"办一场婚礼"**来做类比：

1. Decomposition (分解) ------ "大事化小"

论文核心： 把一个复杂的、AI 无法一步完成的长任务，拆成若干个简单的小任务。

例子：办婚礼
- 大任务： "下个月办一场完美的婚礼。"（AI 听了会宕机，不知道从哪开始）
- Decomposition 之后：
  1. 确定酒店和档期。
  2. 订婚纱和西装。
  3. 发请柬。
  4. 安排酒席菜单。
- 逻辑： 每一个小任务（如"发请柬"）都是 AI 可以立即执行的。搞定了所有小任务，大任务自然就完成了。

2. Decoupling (解耦) ------ "各司其职，互不干扰"

论文核心： 把任务的不同属性（比如"逻辑推理"和"工具使用"）分开处理，不让它们混在一起。

例子：婚礼上的"新郎"与"婚庆公司"
- 耦合状态（Coupled）： 新郎又要陪客人，又要去后厨催菜，还要调音响。一旦音响坏了，新郎去修，客人就没人陪了。整个系统会因为一个环节出错而瘫痪。
- 解耦状态（Decoupled）：
  - 决策层（新郎）： 只负责发指令（"现在开始仪式"）。
  - 执行层（婚庆公司）： 负责具体干活（"放音乐"、"上菜"）。
- 优势： 哪怕音响坏了，也是婚庆公司的修理工去弄，不影响新郎继续陪客。
- AI 论文里的意思： 把 "想出计划" 的脑子和 "去搜网页/调 API" 的手分开。想计划的只管想，干活的只管干，这样哪怕搜网页搜错了，也不会把 AI 的逻辑带坑里去。

总结两者的区别：

概念	动作	目的	比喻
Decomposition	切分	降低难度，变长为短。	把一个大披萨切成 8 块，一块一块吃。
Decoupling	剥离	减少依赖，各司其职。	厨房里洗菜的和炒菜的分开，洗菜慢了不影响厨师握锅。

为什么论文要提这两个？

因为现在的 AI 还没强到能"一眼看穿全局"且"同时把所有细活干好"。通过 Decomposition 把它变聪明（分步走），通过 Decoupling 把它变稳健（分工明确）。

注：解耦 / 分解也是大模型cover，大模型从直接回答变成先规划分工再执行。[实际上让大模型对齐人类的思维模型，一步一步的解构大模型的应答]

External Aid / Tool Use（外部援助/工具使用）

并充分利用外部资源来搭建或增强大语言模型的能力。

3.1.2. 训练后规划

简单来说，Post-training Planning 就是让大模型在"出厂"之后（即模型权重已经固定了），通过外部的逻辑训练 或特定的思考模式，变得更会计划。

它不像预训练（Pre-training）那样去背海量书本，而是像让一个已经成年的大学生去参加**"逻辑思维集训营"**。

论文里这个部分通常包含两个核心路径：

1. 强化学习（Reinforcement Learning, RL）

例子：教 AI 玩数独或走迷宫

做法： 模型每走一步（比如在数独里填个数字），环境会给它一个反馈（对或错）。
过程： 通过大量的这种"试错-奖励"循环，AI 慢慢学会了："噢，我不能只看眼前这格填什么，我得先规划好整行和整列的布局。"
本质： 模型虽然参数没大变，但在处理任务时，它学会了**"先想后做"**以获取更高分。

2. 蒸馏与微调（Distillation / Fine-tuning）

例子：学霸的草稿纸

做法： 拿一个超级聪明的模型（比如 GPT-4），让它把解题的每一个思考步骤（思考路径 A -> 路径 B -> 纠错 -> 结论）全部写下来。
过程： 把这些高质量的"思考过程"喂给一个稍微笨一点的模型。
本质： 这个模型没学到新知识，但它学会了学霸**"拆解问题和规划步骤"的套路**。

为什么要叫"Post-training"（训练后）？

因为在模型最初的训练里，它只是在学"概率"，即预测下一个词是什么。

而 Post-training Planning 是在模型已经会说话的基础上，通过额外的手段（RL 或指令微调），专门强化它的逻辑链条 和大局观。

通俗对比：

Pre-training： 让小孩背词典、看百科全书（积累知识）。
Post-training Planning： 教这个小孩如何制定学习计划 、如何复习错题（训练方法论）。

In-context Planning vs Post-training Planning

1. In-context Planning (上下文规划)

形象理解：给模型一张"临时说明书"。

不需要改动模型任何代码或参数，只是在对话框里教它怎么做。

操作方式： 在 Prompt（提示词）里加入例子或要求。比如："请先写出三步计划，再执行任务。" 或者给它看两个"先分析、后解决"的范例。
优点：
- 快：只要你会写提示词，马上就能用。
- 灵：随时换任务，随时换说明书。
缺点：
- 记不住： 换个新对话窗口，它就忘了，你得重新发一遍。
- 上限低： 如果模型本身逻辑底子薄，你给再好的说明书它也可能看不懂。

2. Post-training Planning (训练后规划)

形象理解：给模型做"脑回路改造"。

通过额外的训练（比如强化学习或微调），让"先计划再行动"变成模型的本能。

操作方式： 用成千上万个"有计划、有逻辑"的数据集去喂它，或者让它在环境里试错（RL），做对了给奖励。
优点：
- 内化： 哪怕你不要求它计划，它出厂自带"深思熟虑"的基因。
- 强：能处理极其复杂的逻辑，因为它在训练中见过无数坑。
缺点：
- 贵且慢： 需要算力、需要大量高质量数据、需要技术团队。

核心对比表

特性	In-context Planning (上下文)	Post-training Planning (训练后)
本质	临时借力（靠 Prompt 引导）	永久升级（靠数据和算法改变权重）
成本	极低（打字就行）	很高（需要训练资源）
效果	适合简单、多变的小任务	适合复杂、对成功率要求高的专业任务
比喻	考试前发一张解题套路小抄	考试前参加了三个月的奥数集训班

总结

如果你只是想让 AI 帮写个周报，用 In-context（告诉它：先列提纲再写内容）就够了。
如果你要造一个能自动修代码、自动开飞机的 Agent，必须用 Post-training，把它培养成一个天生具备规划能力的"专家"。

3.2 工具调用优化（Tool-Use Optimization）

工具使用优化是指智能体通过智能调用外部模块来增强其内在能力的能力。这使得智能体能够克

服诸如知识过时、无法进行精确计算或无法访问私有信息等局限性。核心挑战在于智能体如何推

理何时使用工具、从库中选择哪个工具，以及如何生成有效的调用。在本节中，我们探讨了现有

的工具使用优化方法，这些方法大致可分为三种风格：在上下文中集成工具、训练后集成工具，

以及基于编排的工具集成。

3.2.1. 上下文工具集成（ In-Context Tool-integration ）

推理与工具使用的交织- Interleaving Reasoning and Tool Use

这个术语听起来很高级，其实用大白话讲就是："别一口气想完，边想边干，边干边修。"

Interleaving 的意思是"交替"或"交织"。在 3.2.1 章节中，它描述的是一种**"推理（Reasoning）"** 与**"调用工具（Tool Use）"**循环往复的状态。

我们可以用**"去陌生城市找一家网红餐厅"**来对比两种模式：

非交替模式 (Plan-then-Act)

做法： 你在家里查好所有地图，写下：出门左转-坐3路车-下车走500米。然后把手机关了，死板地按这个计划走。
风险： 万一3路车停运了，你就彻底抓瞎了，因为你已经停止"推理"了。

交替模式 (Interleaving Reasoning and Tool Use) ------ 论文推荐的模式

这就是 Interleaving。大模型不再是一次性给个大计划，而是：

推理： "我要去餐厅，首先得查查怎么坐车。"
工具： 调用【地图APP】，搜索路线。
反馈： 地图显示"3路车已停运，建议坐地铁"。
推理（根据反馈调整）： "既然公交没了，那我现在得找最近的地铁站。"
工具： 调用【地图APP】，搜"最近地铁站"。
循环： 依此类推，直到走到餐厅门口。

论文中提到的核心意义：

A. 解决"幻觉"和"信息滞后"

大模型脑子里的知识是死的（训练数据），而工具（如搜索、API）获取的信息是活的。

交替使用 让模型能用工具获取的实时事实，来纠正自己推理中的偏差。

B. 动态规划 (Dynamic Adjustment)

很多复杂任务在开始前是没法完全预测的（比如写代码，不运行一下谁知道哪里会报错）。

Interleaving 允许模型：想一小步 -> 运行一下（工具） -> 看结果 -> 再想下一步。

C. 典型代表：ReAct 框架

论文这一节一定会提到 ReAct (Reason + Act)。它的模版非常经典：

Thought（想）： 我现在需要知道什么？
Action（做）： 去搜一下/算一下。
Observation（看）： 得到结果了，这个结果说明了什么？
Thought（再想）： 基于刚才看到的结果，我下一步该干嘛？

总结：

Interleaving Reasoning and Tool Use 就是把 AI 变成一个**"拿着手机（工具）边看导航边找路（推理）的人"**，而不是一个"背下地图后闭着眼瞎走的人"。

这种"思考与行动深度耦合"的状态，是目前 Agent（智能体）能够处理现实复杂问题的关键。

优化工具交互的上下文-Optimizing Context for Tool Interaction

这个部分其实就是给 AI 准备一本**"极简版工具操作指南"**。

如果说 Interleaving 是教 AI "边想边干"，那 Optimizing Context （优化上下文）就是解决一个尴尬的问题：给 AI 的参考资料太多、太乱了，导致它看花了眼，最后把事情搞砸。

我们可以用**"给大厨准备调料架"**来做类比：

1. 为什么要"优化"？（痛点）

想象你要让 AI 炒菜（用工具），你把整个超市的调料（成千上万个 API 文档）都搬到它面前。

后果： AI 找个盐都要找半天（消耗大量 Token，巨贵）；或者它看着满目琳琅的瓶子，随手拿了一瓶"洁厕灵"当白醋（误用工具）。
论文核心： 为了让 AI 用得准、用得省，我们得把这些"上下文"精简和包装一下。

2. 优化的三个常见招数：

A. 筛选（Retrieval-based Selection）------ "只拿要用的"

做法： 别把几百个 API 全部塞给 AI。
例子： AI 要订机票，你就只把"查航班"、"订座位"的说明书给它。至于"查天气"或"查食谱"的文档，通通藏起来。
目的： 减少干扰，让 AI 聚焦。

B. 压缩与精炼（Summarization / Formatting）------ "说人话，划重点"

做法： 很多 API 文档又臭又长（几百行 JSON 代码）。优化后的上下文会把它精简成：功能：订票；参数：日期、地点。
例子： 就像给大厨的调料瓶贴上大大的**"盐"、"糖"**标签，而不是让他去读《氯化钠生产工艺说明书》。
目的： 节省 Token 空间，让模型一眼看明白。

C. 演示（Few-shot Demonstrations）------ "做个示范看看"

做法： 别光给说明书，给它看一两个"别人是怎么用这个工具"的例子。
例子： 告诉 AI："看，上次有人想订票，他是先搜航班号，再填身份证的。你也学着点。"
目的： 通过 In-context Learning 降低 AI 犯错的概率。

3. 为什么论文专门提这个？

在 3.2.1 节里，模型要频繁地在"想"和"用工具"之间切换。

如果上下文（Context）太重，模型切换一次就得读半天文档，逻辑容易断掉。
如果上下文太脏（有干扰），模型可能在推理时被错误的文档信息误导。

总结：

Optimizing Context for Tool Interaction 就是：

扔掉没用的说明书。
简化复杂的参数描述。
加上几个好榜样示例。

一句话总结： 就是为了让 AI 在用工具时，手边只有最干净、最精准的"操作手册"，从此不再"乱花渐欲迷人眼"。[1, 2]

3.2.2. 工具集成后训练- Post-training Tool-integration

Bootstrapping of Tool Use via SFT-通过SFT引导工具使用

这个术语听起来像是在"提着靴子把自己拔起来"，其实它的核心意思就是："给 AI 喂点'教科书级'的正确范例，让它学会怎么用工具。"

我们用**"教新手厨师用洗碗机"**来类比：

1. 为什么要 Bootstrapping（引导/自举）？

大模型刚出厂时，虽然读过很多书，但它可能没见过具体的工具（比如你们公司的内部数据库）怎么用。如果你直接让它用，它会乱按按钮。

SFT (Supervised Fine-Tuning, 有监督微调) 就是：找个高手，把正确的使用过程写下来，让 AI 背。

2. 这个过程是怎么操作的？（分三步走）

第一步：造"教科书"（Data Collection）

做法： 既然 AI 不会，我们就人工（或者用更强的模型，比如 GPT-4）写出一堆**"标准答案"**。
例子：
- 问题： "查一下北京明天的天气。"
- 标准过程：
  1. 【思考】：我需要查天气，得用 get_weather 工具。
  2. 【动作】：调用 get_weather(city="Beijing")。
  3. 【观察】：工具返回"晴天，25度"。
  4. 【结论】：北京明天晴天，25度。
重点： 这套"思考+动作+结果"的完整路径，就是 SFT 的训练素材。

第二步：喂"教科书"（Fine-Tuning）

做法： 把成千上万条这种"标准过程"喂给模型。
本质： 告诉模型："看好了，以后遇到这种事，你就按这个格式和逻辑来干活！"

第三步：自举（Bootstrapping）

做法： 当模型学会了一点皮毛后，让它自己去试着写更多的例子。
循环：
1. 模型写出 100 个例子。
2. 我们把写得烂的扔掉，把写得好的（正确的）留下来。
3. 把这批**"自己产的高质量作业"**再喂给自己。
效果： 就像学生通过做对了几道题，突然领悟了方法，越做越顺手。

3. 为什么论文要强调这个？

因为单纯靠 In-context（在对话里教）太占空间且不稳定。

通过 SFT ，这种"工具使用能力"就刻进了 AI 的**基因（权重）**里。
它不需要你每次都提醒"请先思考再调工具"，它一张嘴就是专业范儿。

总结对比：

In-context Tool Use： 像是在考场上发了一张临时公式表（用完就忘）。
Bootstrapping via SFT： 像是让你在考前刷了 1000 道真题，把公式背得滚瓜烂熟（成了本能）。

一句话总结： Bootstrapping of Tool Use via SFT 就是通过"高质量范例喂养+自我进化"，让 AI 从"乱用工具的菜鸟"变成"懂规矩、按套路出牌的老司机"。

怎么知道模型自己写的100个例子，哪些是要扔掉的

这是一个非常核心的问题！既然要"自举（Bootstrapping）"，就必须保证喂进去的不是"垃圾"，否则模型会越学越废。

在论文和实际工程中，筛选这 100 个例子通常有以下四种"质检员"：

1. 结果判定员（Outcome-based Verification）------"看答案对不对"

这是最直接的方法。如果工具调用是针对有标准答案的任务（比如数学题、代码执行、数据库查询）：

做法： 运行模型生成的工具代码。
判断： 如果代码报错了，或者算出来的结果（比如 1+1=3）和标准答案对不上，这个例子直接扔掉。
例子： 模型写了一个查询天气的 API 调用，结果返回了"404 Error"，说明它参数写错了，删掉。

2. 逻辑审计员（Model-as-a-Judge）------"让学霸改作业"

如果我们没有标准答案（比如写一段调研报告的规划），就请出更强的模型（比如 GPT-4o 或 Claude 3.5）来当裁判。

做法： 把模型写的"思考过程 + 工具调用"发给强模型。
判断： 问强模型："这段操作逻辑通顺吗？工具用对了吗？有没有多余的废话？"
例子： 强模型说："这步逻辑跳跃了，没搜公司名就直接去查财报了，不及格。"------扔掉。

3. 编译器/环境反馈（Runtime Execution）------"看能不能跑通"

对于编程或 API 调用类任务，环境是最好的老师。

做法： 把模型生成的工具指令直接丢进真实的沙盒（Sandbox）里跑。
判断：
- 语法错误？ 扔。
- 死循环？ 扔。
- 调用了不存在的函数？ 扔。
结果： 只有那些**"丝滑运行并拿到有效数据"**的例子，才被留下来进修。

4. 轨迹一致性（Self-Consistency / Majority Voting）------"看大家是否都这么想"

这是一种"少数服从多数"的策略。

做法： 让模型对同一个问题写 5 次不同的计划和工具调用过程。
判断： 如果有 4 次都指向了同一个操作路径和结果，而剩下的 1 次南辕北辙，那么那 1 次大概率是瞎编的------扔掉。
逻辑： 这种方法假设"真理往往掌握在大多数（采样）手中"。

总结：论文里的"质检工作流"

通常是组合拳：

先跑一遍： 筛掉语法错误的（编译器过滤）。
看结果： 筛掉答案错的（结果验证）。
大模型评审： 筛掉逻辑绕弯子的（学霸打分）。

一句话总结： Bootstrapping 不是"照单全收"，而是**"严选"**。只有通过了环境测试和逻辑审计的"高分卷"，才能作为下一轮进化的教材。

Mastery of Tool Use via RL-通过强化学习掌握工具使用方法

这一部分其实是把 AI 从一个"死记硬背的学生"变成了"实战经验丰富的老司机"。

如果说前面的 SFT（有监督微调） 是让 AI 背诵正确答案，那么 RL（Reinforcement Learning，强化学习） 就是让 AI 去实战中撞南墙，通过疼不疼（奖励/惩罚）来领悟工具使用的最高境界。

我们可以用**"教 AI 玩那种复杂的经营模拟游戏（比如开餐厅）"**来类比：

1. 为什么要用 RL？（SFT 的瓶颈）

SFT 的问题： 老师（人工标注）给的答案不一定是最优的，而且老师没法把所有突发情况都写进教科书里。
RL 的核心： 不给标准答案，只给一个**"计分板"**。AI 随便试，只要最后得分高（任务完成了、查到了正确数据），就奖励它；如果把事情搞砸了，就扣分。

2. 这个"修炼"过程是怎么玩的？

A. 尝试与纠错（Trial and Error）

情景： AI 尝试帮用户买一张最便宜的机票。
动作： AI 第一次先查了"携程"，发现票价 1000 元。它犹豫了一下，没去比价就直接下单了。
反馈： 系统发现其实"去哪儿"只要 800 元，于是给 AI 打了 -10分（惩罚：你浪费了用户的钱）。
进化： 下次遇到类似任务，AI 会想起这个"痛"，主动多调一个比价工具。

B. 探索长链条决策（Long-horizon Planning）

有些工具使用不是一两步能搞定的，需要一连串动作。

例子： AI 要修一个复杂的代码 Bug。
步骤： 1. 跑测试用例 -> 2. 看报错日志 -> 3. 修改代码 -> 4. 重新编译。
RL 的作用： 只有当第 4 步成功通过测试时，AI 才能拿到那 +100分 的大奖。如果中间任何一步断了（比如改了代码忘了编译），它拿不到分。
领悟： AI 慢慢学会了："为了最后的大奖，我必须严谨地执行完这一套动作组合。"

C. 拒绝与回溯（Self-Correction）

情景： AI 调用的 API 返回了"系统繁忙"。
普通 AI（SFT版）： 可能就卡在那儿，或者一直重复报错。
专业 AI（RL版）： 它知道重复报错会扣分。它会尝试："换个 API 试试？" 或者 "等 5 秒再试？"
本质： 它在"毒打"中学会了灵活应变。

3. 论文里提到的两个关键概念：

Reward Function (奖励函数)： 就像是游戏的计分规则。比如：任务完成 +10，Token 消耗过大 -1，调用工具出错 -5。
Exploration (探索)： 鼓励 AI 别总是用老一套，偶尔试个新工具，万一效率更高呢？

4. 总结：SFT vs RL

SFT (Sufficient for basic)： 像是在驾校练倒车入库。教练怎么教，你就怎么停。能应付考试，但上路遇到碰瓷的、加塞的就懵了。
RL (Mastery)： 像是已经在市区开了三年的老司机。他知道什么时候该变道，什么时候该避让，哪怕没路标也能靠直觉找到目的地。

一句话总结： Mastery of Tool Use via RL 就是让 AI 在**不断的"调工具-看结果-拿奖惩"**的实战循环中，自己悟出一套最高效、最稳健的工具操作逻辑。

3.2.3. 基于编排的工具集成 Orchestration-based Tool-integration

用于工具编排的代理管道-Agentic Pipelines for Tool Orchestration

这一部分讲的是：当任务复杂到靠一个模型"大脑"已经转不过来时，我们需要把 AI 变成一套**"标准工业流水线"**。

Orchestration（编排） 这个词，就像交响乐指挥。模型不再是单打独斗，而是指挥一群"工具人"有序协作。

我们可以用**"装修一套房子"**来理解这三种典型的流水线模式：

1. 路由模式 (Routing) ------ "专业分诊台"

场景： 装修公司门口有个接待员。

做法： 用户说"我想刷墙"，接待员（Router LLM）看了一眼，直接把它分给"油漆工模型"；用户说"水管漏了"，就分给"水电工模型"。
例子：
- 输入： "帮我查一下英伟达股价并写段分析代码。"
- 路由： 判定这是"金融+代码"任务，分发给专门接了【股票API】和【代码解释器】的子系统，而不是让一个通用的聊天机器人硬猜。
核心： 分流，让专业的模型干专业的事。

2. 规划-执行模式 (Plan-then-Execute) ------ "工长和工人"

场景： 工长先画图纸，工人再进场。

做法：
1. Planner（工长）： 坐在办公室里，把装修拆成：拆墙 -> 走线 -> 铺砖。
2. Executor（工人）： 拿着清单，闭着头一张张单子干完。
例子：
- 任务： "对比 2023 和 2024 年的财报并生成图表。"
- 流水线：
  - 第一步：搜索 23 年财报。
  - 第二步：搜索 24 年财报。
  - 第三步：数据对比。
  - 第四步：画图。
- 优点： 动作极快，因为工人不需要边干边想，按表操课就行。 [1, 2]

3. 多智能体协作 (Multi-agent Collaboration) ------ "项目周会"

场景： 设计师、木工、电工坐在一起开会，互相纠错。

做法： 一个模型负责调工具（Worker），另一个模型负责盯着它看有没有出错（Checker/Critic）。
例子：
- Worker： "我调了 API，但返回了 403 错误。"
- Critic： "那是你授权码没填对，重新调一遍。"
- Manager： "别争了，时间快到了，Worker 换个备用 API 试试。"
核心： 通过互相监督，解决单个模型容易"钻牛角尖"或"犯低级错误"的问题。 [3]

4. 为什么要搞这些 Pipelines（流水线）？

论文里提到这个，是因为现在的工具太庞杂了（可能有几千个 API）。

如果不搞流水线： 就像让一个厨师一边在大厅点菜，一边在后厨杀鱼，还要去门口收钱，肯定会乱套。
搞了流水线： 任务被**解耦（Decoupling）**了。哪怕模型本身没那么聪明，只要流程（Pipeline）设计得好，也能像工业化生产一样，稳健地完成超复杂任务。

一句话总结：
Agentic Pipelines 就是把"一个人包圆"变成"一个流水线团队协作"，通过制度（流程） 来补齐**个体（模型）**的短板。

用于编排的工具表示法-Tool Representations for Orchestration

简单来说，Tool Representations for Orchestration 解决的是一个沟通问题：如何把成千上万个复杂的工具（API、代码、插件），"翻译"成大模型最容易听懂、最不容易用错的形式？

如果说 Pipelines 是装修队的"组织架构"，那么 Tool Representations 就是给装修工人发的**"工具使用说明书"**。

为了让你秒懂，我们用**"教一个外国名厨用中国的各种复杂厨具"**来类比：

1. 为什么"表达形式（Representation）"很重要？

如果你直接把一个复杂的 API（比如查询银行接口）的原代码丢给 AI，它就像看到一堆乱码。

痛点： API 文档太长（费 Token）、参数太怪（AI 会填错）、功能太像（AI 会选错）。
论文核心： 我们得把工具包装成 AI 喜欢的样子。

2. 三种常见的"包装方式"：

A. 自然语言描述 (Natural Language Descriptions) ------ "功能小贴士"

做法： 不给代码，只给一句话。
例子：
- 原始 API： GET /v1/market/stock/quote?s=AAPL&t=json
- 包装后： "工具名称：股票查询。用法：输入股票代码，我会告诉你现在的价格。注意：代码必须是大写字母。"
目的： 利用大模型强大的语义理解能力，让它像读小说一样明白工具是干嘛的。

B. 示例化表达 (Few-shot Exemplars) ------ "看图说话"

做法： 别光说不练，给它看几个正确的调用例子。
例子：
- "你想查苹果公司吗？那就这样写：Search(Stock='AAPL')。"
- "你想查特斯拉吗？那就这样写：Search(Stock='TSLA')。"
目的： AI 最擅长模仿（In-context Learning），给它看两个例子，它瞬间就知道参数该填什么格式了。

C. 层次化抽象 (Hierarchical Abstraction) ------ "目录索引"

做法： 如果工具有 1000 个，别一次性全摊在桌上。先给它看大类。
例子：
- 第一层： 你是要"查资料"、"算数学"还是"发邮件"？
- 第二层（选了发邮件后）： 你是要"写草稿"、"点发送"还是"删邮件"？
目的： 防止工具太多导致 AI "选择困难症"，通过分级分类，减小它的脑力负担。

3. 论文中提到的进阶招数：工具的"身份证" (Standardized Schemas)

为了让大模型在不同的流水线（Pipelines）里都能稳健使用工具，业界通常会把工具标准化，比如使用 JSON Schema。

形象理解： 不管是哪家公司的电钻，插头都得是标准两相或三相的。
做法： 定义好每一个工具的固定格式（必须填什么、选填什么、输出是什么）。
效果： 这样模型在"编排（Orchestration）"多个工具时，就像玩乐高积木，接口严丝合缝，不会出现"上一个工具出来的东西，下一个工具读不懂"的情况。

总结：

Tool Representations for Orchestration 就是：

翻译： 把冷冰冰的代码变成 AI 爱读的文字。
示范： 手把手教它怎么填参数。
分类： 别让它在工具海里迷路。

一句话总结：

这部分研究的是**"怎么给 AI 写一份最完美的工具说明书"**，好让它在指挥千军万马（各种工具）时，既不认错人，也不下错令。

3.3. 代理搜索-Agentic Search

根据实时推理需求动态控制何时、什么以及如何检索

3.3.1. In-Context Search

推理与搜索的交织-Interleaving Reasoning and Search

这一部分讲的是：别让 AI 凭记忆瞎猜，让它像学霸做开卷考试一样，"看一眼题、翻一下书、写一步逻辑"。

Interleaving （交替/穿插）在这里是指：把 "大脑思考（Reasoning）" 和 "外部搜索（Search）" 像拧麻花一样编织在一起。

我们可以用**"侦探破案"**来类比：

1. 传统模式：先搜后想 (Search-then-Reason)

做法： 警察把现场所有东西都拍下来交给侦探，侦探关在小黑屋里想。
痛点： 侦探想了半天发现："哎呀，忘了看死者兜里有没有钥匙了！"但他现在没法回现场，逻辑就断了。
AI 表现： 你给 AI 一大堆搜索结果，让它总结。它可能因为信息太多（长文本压力）漏掉了关键点。

2. 交替模式：边想边搜 (Interleaving) ------ 论文核心

这是 3.3.1 推荐的模式。侦探（AI）带着逻辑去现场，走一步搜一步。

例子：回答"梅西职业生涯中进球数最多的那年，金球奖是谁拿的？"
- 步骤 1（推理）： "我先得确定梅西进球最多的是哪一年。"
- 步骤 2（搜索）： 调用搜索工具查【梅西进球最多赛季】。
- 步骤 3（观察反馈）： 搜索结果说是 2012 年。
- 步骤 4（推理）： "好，已知是 2012 年。现在我得查 2012 年金球奖得主。"
- 步骤 5（搜索）： 调用搜索工具查【2012 金球奖得主】。
- 步骤 6（观察反馈）： 结果是梅西。
- 步骤 7（结论）： 2012 年，梅西。

3. 为什么论文要强调这种"穿插"？

A. 解决"不知道搜什么"的问题 (Step-by-step Querying)

很多复杂问题的搜索关键词，是需要先推理一步才能生成的。

如果你不交替，AI 可能直接搜全句"梅西进球最多那年谁拿金球"，搜出来的结果可能很乱。
交替模式下，AI 能把大问题拆成**"精准的搜索关键词"**。

B. 动态修正 (Error Correction)

场景： AI 原本计划搜"A 公司的 CEO"，结果搜索返回"A 公司已破产"。
交替的好处： AI 看到反馈后，立马中断原计划，转而推理"既然破产了，那我现在该搜清算人是谁"。

C. 典型技术：Self-RAG 或 FLARE

论文里可能会提到这些词：

FLARE： AI 发现自己写的一句话信心不足（没把握），就停下来去搜一下，搜完再接着写。
Self-RAG： AI 边写边评价自己："我这步需要证据吗？需要。" -> 去搜 -> "搜到的有用吗？" -> "有用，继续写"。

总结对比：

模式	动作	形象比喻
Search-then-Reason	搜一大堆 -> 全读完 -> 憋答案	闭卷考试前死记硬背，考场上全凭记忆。
Interleaving	想一点 -> 搜一下 -> 看结果 -> 再想	真正的开卷考试，看一道题翻一下书，最稳当。

一句话总结：
Interleaving Reasoning and Search 就是让 AI 变成一个**"逻辑在线、随时翻书"**的聪明人，通过不断的"思考-验证-获取新知"循环，解决那些靠脑子里旧知识搞不定的复杂难题。

结构增强搜索

这部分讲的是：别让 AI 像没头苍蝇一样在网页大海里乱搜，给它一张"结构化"的地图。

Structure-Enhanced Search （结构增强搜索）的核心在于：很多知识不是零散的句子，而是存在于表格、知识图谱（关系网）或特定层级里的。如果 AI 只会搜关键词，就会漏掉这些"骨架"信息。

我们可以用**"在大型图书馆找一个特定的家谱关系"**来类比：

1. 传统搜索 (Plain Search) ------ "大海捞针"

做法： 你在图书馆大喊："谁认识张三的二舅？"
痛点： 运气好能听到有人回一句，运气不好就得翻遍所有书。
AI 表现： 只是把用户的问题丢给搜索引擎（如 Google），拿回一堆碎片网页，AI 拼凑半天也搞不清人物关系。

2. 结构增强搜索 (Structure-Enhanced) ------ "查户口本和地图"

这是论文 3.3.1 提到的进阶招数，主要包含两种形式：

A. 知识图谱增强 (Knowledge Graph Search) ------ "顺藤摸瓜"

例子：问"奥本海默的导师的导师是谁？"
- 结构化操作： AI 不直接搜全句。它先在知识图谱里定位【奥本海默】，找到【导师】这条线指向【波恩】，再从【波恩】出发找【导师】指向【普朗克】。
- 优势： 这种"点对点"的路径跳转极其精准，绝不会因为网页文章写得模糊而找错人。

B. 表格/数据库增强 (Table/Database Search) ------ "定点打击"

例子：问"2023年全球销量前五的手机里，哪款电池最大？"
- 普通搜索： AI 搜出 10 篇新闻稿，每篇讲一款手机，AI 得读半天去对比数据。
- 结构化操作： AI 直接识别并抓取网页里的对比表格 ，或者去查结构化的参数数据库（SQL 查询）。
- 优势： 数据对比一目了然，不会出现"张冠李戴"。

3. 论文里的"结构"到底增强了什么？

检索的精准度 (Retrieval Precision)：

通过 Graph-tool （图工具）或 SQL，AI 能直接拿到"结构化事实"，而不是一段可能含有废话的文字。
多跳推理的能力 (Multi-hop Reasoning)：

结构化数据天然支持"A -> B -> C"的推导。AI 可以顺着图谱的线条，像走迷宫一样稳健地完成长链条搜索。
模式匹配 (Pattern Matching)：

比如你想找"所有和华为有供应关系的芯片公司"，在结构化图谱里就是一个简单的"查询操作"，而在纯文本搜索里则是大工程。

总结对比：

搜索方式	搜索对象	形象比喻
Plain Search	零散的网页、段落	在乱草堆里找一根特定的草。
Structure-Enhanced	关系图、表格、数据库	照着公司组织架构图找经理。

一句话总结：
Structure-Enhanced Search 就是让 AI 学会利用**"人类整理好的知识骨架"**（如图谱和表格），通过精准的路径跳转和数据比对，快速搞定那些关系复杂、需要严谨数据的难题。

3.3.2. Post-Training Search

SFT-Based Agentic Search

这一部分讲的是：通过"特训"，让 AI 变成一个懂搜索套路的"老侦探"，而不是只会把你的话复制到搜索框的"传声筒"。

SFT-Based Agentic Search 的核心是：利用有监督微调（SFT），把"如何高效搜索"的经验直接刻进模型的脑子里。

我们可以用**"教一个实习生如何做背景调查"**来类比：

1. 为什么要 SFT？（普通 AI 的通病）

普通 AI： 你问"周杰伦现在的状态"，它直接搜"周杰伦现在的状态"。结果搜出来一堆八卦，没重点。
Agentic Search： 它会想："我要查他的最新专辑、巡演计划和近期社交媒体动态。"然后分三次精准搜索。这种**"搜索自觉性"**就是练出来的。

2. SFT 训练是怎么做的？（喂"搜索笔记"）

我们需要准备大量的**"高质量搜索轨迹"**作为教材：

教材例子：
- 问题： "帮我对比特斯拉和比亚迪去年的毛利率。"
- 黄金搜索轨迹（训练数据）：
  1. 思考： 我需要两家公司的年度财报。
  2. 动作： 搜索 Tesla 2023 annual report gross margin。
  3. 动作： 搜索 BYD 2023 annual report gross margin。
  4. 思考： 搜到了，特斯拉是 18.2%，比亚迪是 20.2%。现在我需要计算差距。
  5. 结论： 比亚迪高出 2 个百分点。
训练过程： 把成千上万条这种"专业搜索步骤"喂给模型，让它模仿。

3. SFT 之后，模型学会了哪三招？

A. 关键词扩充 (Query Expansion)

学会了： 把模糊的问题变精准。
例子： 你搜"最近好火的那个 AI 视频"，SFT 后的模型会主动搜 Sora OpenAI release date 或 Kling AI video generator。

B. 结果筛选 (Relevance Judgment)

学会了： 面对搜出来的 10 个网页，它能瞬间判断哪个是广告，哪个是权威官网。
例子： 搜"官网"时，它会跳过垃圾推广，精准点击那个带 gov 或 edu 后缀的链接。

C. 迭代搜索 (Iterative Refinement)

学会了： 如果第一遍没搜到，它不会说"我不知道"，而是会换个法子再搜。
例子： 搜"某教授的邮箱"没搜到，它会转而搜"该教授所属大学的教职工通讯录"。

4. 总结对比：

阶段	表现	形象比喻
没 SFT 前	你问什么，它搜什么，搜不到就放弃。	呆板的收发员。
SFT 后	懂得分步搜、换词搜、去重搜。	专业的调查记者。

一句话总结：
SFT-Based Agentic Search 就是通过**"刷高质量搜索案例"** ，让 AI 掌握了搜索的**"心法"**。它不再是机械地调用搜索接口，而是带着目的、带着策略去互联网上挖信息。

RL-Based Agentic Search

这一部分讲的是：不再教 AI 搜索的"标准步骤"，而是让它去互联网大海里"自生自灭"，通过不断的"踩坑"和"拿奖金"，自己悟出最牛的搜索策略。

RL-Based（基于强化学习） 的核心在于：不给标准答案，只给胜负判定。

我们可以用**"教一个新手在茫茫大海里钓到最贵的金枪鱼"**来类比：

1. 为什么要用 RL？（SFT 的局限）

SFT 的问题： 老师教的搜索词可能是旧的，或者老师也没见过某些奇葩的网页。
RL 的核心： 只要 AI 最后搜到了那个"藏得极深"的正确答案，就给它 +100分 ；如果它在广告网页里绕圈子，就扣它 -10分。

2. RL 是怎么训练 AI 搜索的？（"胡萝卜"加大棒）

A. 尝试各种"搜索组合拳"（Trial and Error）

场景： 用户问"某款刚发布两小时的冷门芯片的功耗是多少？"
AI 第一次尝试： 直接搜"芯片名功耗"。结果全是营销号，没数据。
反馈： 任务失败，扣 50 分。
AI 第二次尝试（变聪明了）： 先搜"芯片名官网"，进入官网后，再搜"Datasheet（数据手册）"，最后在 PDF 里的第 18 页找到了数据。
反馈： 任务圆满完成，奖 200 分！
进化： AI 刻骨铭心地记住了："搜硬核参数，找 Datasheet 比搜新闻强一万倍。"

B. 学会"见好就收"或"止损"（Efficiency vs. Accuracy）

问题： 搜索是费钱（Token）费时间的。
RL 规则： 搜到正确答案 +100，但每多点开一个没用的网页 -5。
领悟： AI 学会了精简。它不再乱点那 10 个搜索结果，而是只点那个看起来最靠谱的。它学会了**"快、准、狠"**。

3. 论文里提到的两个关键概念：

Reward Shaping (奖励塑造)：

不仅最后搜到答案给奖，如果 AI 搜出了一个非常有价值的中间关键词（比如从"买车"进化到了"2024款豪华SUV安全碰撞测试报告"），也给点小奖。
Environment Feedback (环境反馈)：

互联网就是 AI 的训练场。网页打不开、被反爬虫拦住、搜出来全是垃圾信息......这些真实的"毒打"让 AI 的搜索能力变得极度抗造。

4. 总结对比：

搜索方式	核心逻辑	形象比喻
SFT-Based	模仿学霸的搜索笔记。	按部就班的图书管理员。
RL-Based	在失败中总结财富，在成功中巩固套路。	能在复杂网络里挖出任何料的"黑客级"情报员。

一句话总结：
RL-Based Agentic Search 就是让 AI 变成一个**"结果导向"**的搜索高手。它不拘泥于形式，只要能抓到最准确的信息，它会自己发明出各种人类都没想到的奇妙搜索组合。