浅聊ReAct：Agent 的执行框架

在 AI Agent 大模型开发领域，ReAct 是最基础也最重要的经典执行框架，也是面试和项目落地的高频核心知识点。ReAct 全称为Reasoning and Acting ，核心设计一套固定循环范式：Thought 推理思考 → Action 执行动作 → Observation 观测反馈，智能体按照这个流程循环往复、迭代决策，直至完整完成用户复杂任务。本文系统拆解 ReAct 定义、三大核心环节作用、设计必要性、Token 成本取舍以及与 CoT 思维链的关联区别，帮你彻底吃透底层原理。

一、ReAct 框架核心定义

ReAct 本质是为 AI 智能体量身打造的任务执行框架，核心逻辑模拟人类解决问题的行为模式：遇事先思考规划，再动手执行，做完之后观察结果，根据结果再重新思考下一步。

它打破了大模型传统 "输入直接输出" 的单向模式，强制约束 Agent 每一步操作都遵循Thought-Action-Observation闭环，依靠多轮循环拆解复杂任务、调用外部工具、接收环境反馈，实现自主决策与任务闭环，是各类工具调用、智能规划、自动化 Agent 的底层基石。

二、三大核心环节详细拆解

1. Thought：推理思考，决策的核心根基

Thought 是 ReAct 框架的灵魂，本质是CoT 思维链在 Agent 场景的落地应用 。它不是给开发者看的日志记录，而是写给大模型自己看的推理过程。

在 Thought 阶段，LLM 会梳理当前任务状态、复盘上一轮观测结果、分析还缺少哪些信息、确定下一步该调用什么工具、为什么要这么做。它承担任务拆解、逻辑推理、路径规划、自我约束的作用。

很多人误以为 Thought 是冗余装饰，实则是保障 Agent 不出错的核心机制。没有显性的思考环节，LLM 会盲目行动、逻辑跳步、偏离用户真实需求。就像去超市买菜，不提前列好清单就随便拿，很容易买错、漏买；而 Thought 就是提前梳理好任务步骤，为后续行动定下决策依据。同时，显性的 Thought 流程也让 Agent 执行链路可追溯、可调试，极大降低项目排错成本。

2. Action：执行动作，思考结果的落地

Action 是 Thought 推理后的直接产物，负责把思考好的决策落地执行。主要表现为结构化 JSON 指令，完成工具调用、接口请求、数据查询、指令操作等与外部环境交互的行为。

简单理解：Thought 负责 "想清楚做什么、怎么做"，Action 负责 "动手去做"。LLM 在 Thought 中确定了工具类型、请求参数后，通过 Action 输出标准化调用指令，发起实际操作，是连接模型推理与外部工具的唯一桥梁。

3. Observation：观测反馈，闭环迭代的关键

Observation 是工具执行完毕后返回的原始结果数据，承担信息反馈与状态更新的核心作用。

工具执行产生的所有返回信息，都会进入 Observation 环节，完整传递给大模型，作为下一轮 Thought 推理的输入依据。这一步让 AI 能感知自己行动带来的真实结果，根据实际反馈修正决策、补充信息、调整步骤，形成思考 --- 行动 --- 观测 --- 再思考的无限迭代闭环，直到任务满足结束条件。

三、为什么不能跳过 Thought，直接输出 Action？

很多开发者会有疑问：能否省去 Thought 步骤，让 LLM 直接输出工具调用 Action？答案是完全不可行，跳过思考会让 Agent 错误率大幅飙升，复杂任务下错误率甚至是带 Thought 版本的 3-5 倍。

我们以经典场景举例：帮我查明天北京到上海最便宜的经济舱航班 。无 Thought 的 Agent 会直接输出工具调用：传入date: 明天。但 "明天" 是相对自然语言，不符合接口标准时间格式，直接造成 API 调用失败。后续需要重复重试，额外消耗 Token 开销。即便侥幸拿到航班列表，LLM 没有推理约束，会直接随意选择一个航班 ID 完成订票，跳过 "比价筛选最便宜" 的核心流程，违背用户真实诉求，导致任务彻底失败。

总结来看，跳过 Thought 会引发三大致命问题：第一，参数格式错误 ，LLM 不会主动适配 API 规范，随意传入自然语言参数；第二，逻辑跳步 ，遗漏任务必要流程，缺少中间关键环节；第三，目标偏离，忘记用户核心约束条件，仅凭模型随机判断执行。

四、Thought 的本质：CoT 思维链的场景延伸

Thought 并不是 ReAct 独创的新概念，而是 2022 年谷歌提出的CoT 思维链（Chain of Thought） 在 Agent 工具调用场景的延伸应用。

CoT 是一种经典提示技术，核心思想是：不让 LLM 直接给出最终答案，而是强制模型输出分步推理过程，再推导结果。比如经典应用题：Roger 有 5 个网球，又买了 2 罐，每罐 3 个，一共多少个？CoT 会先写出推理步骤，再给出最终答案。

大模型的推理特性是边生成边推理，不是想清楚再输出。只有强制要求写出显性推理步骤，模型在生成 Token 的过程中才会完成逻辑推演，规避低级逻辑错误。ReAct 正是借用了 CoT 的这一核心思想，把分步推理嵌入每一轮工具调用前，保障决策的合理性与准确性。

五、Thought 的 Token 开销：看似浪费，实则更省成本

不可否认，加入 Thought 会额外消耗 Token。单条常规 Thought 约 50-100 个 Token，5 步任务就要消耗 250-500 个 Token，看似增加了开销，但这是精度与成本的最优取舍。

我们可以通过两种方案直观对比：方案 A 无 Thought：单任务平均 4 步，每步 200Token，基础消耗 800Token；但错误率高达 25%，平均需要重试 2 次，综合实际消耗达到 1200Token。方案 B 有 Thought：每步增加 100Token 推理开销，单任务基础消耗 1200Token；但错误率降至 8% 以下，几乎无需重试，实际消耗和无 Thought 持平。

由此可见，省去 Thought 看似省了少量推理 Token，却会因高频重试、任务失败产生更高的额外开销。多花一点 Token 做显性思考，是性价比最高的稳定性方案。

六、ReAct 与 CoT 的核心区别与关联

很多人容易混淆 ReAct 和 CoT，二者既有传承关系，又有本质区别：CoT 是纯推理提示技术，只负责逻辑思考，不具备任何外部行动能力。输入是普通问题，输出是推理过程 + 最终答案，全程只有文本交互，无法调用工具、对接接口，只适合数学计算、逻辑推理等纯脑力任务。

ReAct 是完整的 Agent 执行框架，借鉴 CoT 的推理能力，同时增加行动与观测环节。输入是复杂实际任务，输出是多轮工具调用序列 + 最终答案，能够联动外部工具、获取实时信息、迭代完成复杂任务。

简单概括：CoT 只思考不行动，ReAct 既思考又行动；CoT 是基础推理能力，ReAct 是推理 + 行动 + 反馈的完整落地框架。

七、总结

ReAct 框架的核心价值，就是用Thought-Action-Observation三步循环，模拟人类思考做事的完整逻辑。Thought 依托 CoT 思维链做推理决策，Action 负责落地工具调用，Observation 承担反馈迭代，三者形成闭环，让 AI Agent 具备自主拆解任务、调用工具、自我纠错的能力。

Thought 看似增加了少量 Token 消耗，却大幅降低任务错误率和重试成本，同时让执行流程可读、便于调试维护。理解 ReAct 三大环节的定位、作用以及和 CoT 的关联，是入门 AI Agent 开发、应对面试笔试、落地智能体项目的必备基础。