Agent ReAct and Loop

同步至个人站点:Agent ReAct and Loop

Agent ReAct and Loop

我一直在使用 ChatGPT 或通义千问这样的 AI 工具,它们很强大,但多数情况下都是"一问一答"。我提一个问题,它给一个答案。

但我注意到,像 Manus 或 Claude Code CLI 这样的"Agent"(智能体)产品,它们似乎可以自动执行任务。你给它一个目标,它会自己去调用工具、分析结果、继续下一步,直到任务完成。

这到底是怎么做到的?它如何摆脱"一问一答"的限制,实现自动循环?这就是我这周探索的问题。

关键概念:ReAct

我读了一些资料,发现了一个关键概念:ReAct

这是 2022 年一篇论文(ReAct: Synergizing Reasoning and Acting in Language Models)提出的思想。它模仿了人类的工作方式:

  1. Reason(思考):分析当前情况,决定下一步该做什么。
  2. Act(行动):执行一个动作(比如调用工具、搜索信息)。

完成"行动"后,会得到一个新的"观察"(Observation),比如工具的返回结果。然后,Agent 带着这个新结果,回到第 1 步,再次"思考",形成一个循环。

一个线索:Claude 的日志

这个"思考-行动"的循环听起来很合理。为了验证它,我做了一个小实验。

我查看了 Claude 编码助手(我在 Mac 上的路径是 ./claude/projects/*.jsonl)的会话日志文件。这些 .jsonl 文件记录了我和 Agent 的完整对话。

我发现,里面的消息(Message)并不仅仅是"我问"和"它答",而是主要有四种类型:

  • user:用户的消息。
  • assistant:模型(Agent)的消息。
  • tool_call:模型决定调用一个工具。
  • tool_result:工具执行后返回的结果。

这揭示了一个秘密:assistant 的回复并不总是最终答案。它可能是一个 tool_call(工具调用)请求,用来告诉外部程序:"请帮我执行这个函数"。

执行完毕后,系统会把 tool_result(工具结果)再发给 assistant

流程:一个循环

看到这里,我基本想通了。Agent 的自动执行,本质上就是这样一个流程:

[用户输入] -> [LLM 思考] -> [决定:调用工具 A] -> [系统执行 A] -> [A 的结果] -> [LLM 思考] -> [决定:调用工具 B] -> [系统执行 B] -> ... -> [最终答案]

这个流程的核心,就是一个循环(Loop)

只要 LLM 返回的不是最终答案,而是一个 tool_call,系统就去执行它,然后把结果塞回去,让 LLM 继续"思考"。

Demo 快速验证

我的逻辑很清晰:一个主函数,它负责调用 LLM。调用后,检查返回结果。

  • 如果结果是普通文本(最终答案),就返回它。
  • 如果结果是 tool_call,就去执行工具,然后把工具结果和之前的对话历史"拼"在一起,递归调用自己。

下面是一个简化的伪代码:

javascript 复制代码
class SimpleAgent {
  async chat(message) {
    const assistantResponse = await this.callLLM(message)
    if (assistantResponse.hasToolCall) {
      const toolResult = await this.callTool(assistantResponse.toolCall) // 递归调用,将tool result作为新消息
      return this.chat(toolResult)
    }
    return assistantResponse.content
  }
}

为了快速验证我的想法,我让 Claude Code 基于 Plasmo 快速开发了一个侧边栏形式的 Browser Agent,效果如下:

这不是产品,只是 Demo。仅用于验证我自己所理解的 Loop。

我的感想

在做完这些事情以后,我豁然开朗。

Agent 的"自动执行",其核心就是这个 "LLM 思考 -> 工具执行 -> 结果反馈 -> LLM 再思考" 的循环。

当然,我这个实现非常简陋。一个工业级的 Agent 框架(比如 LangChain)要复杂得多,它们需要处理:

  1. LLM 兼容 :如何适配不同厂商(OpenAI, Anthropic, Google)的接口和 tool_call 格式。
  2. 工具管理:如何动态注册、描述和安全地执行工具。
  3. 记忆(Memory):如何在循环中管理越来越长的对话历史,防止 Token 溢出。
  4. 路由(Router):当有上百个工具时,如何决定调用哪一个。

但通过亲自动手,我总算摸清了 ReAct 架构的基本原理。这对于我后续的学习,算是打下了一个很好的基础吧。

(完)

相关推荐
Kagol5 小时前
TinyVue 支持 Skills 啦!现在你可以让 AI 使用 TinyVue 组件搭建项目
前端·agent·ai编程
聚客AI6 小时前
🎉OpenClaw深度解析:多智能体协同的三种模式、四大必装技能与自动化运维秘籍
人工智能·开源·agent
黄粱梦醒6 小时前
大模型企业级部署方案-vllm
人工智能·llm
数据智能老司机7 小时前
使用 MCP 与 A2A 设计多智能体 AI 系统——部署多智能体系统
llm·agent
DigitalOcean8 小时前
GPU对比:MI350X、MI325X、MI300X、H200、H100
llm·aigc
数据智能老司机9 小时前
使用 MCP 与 A2A 设计多智能体 AI 系统——与 Model Context Protocol(MCP)生态系统集成
llm·agent
寻见9039 小时前
解决大模型 5 大痛点:LangChain 核心组件全解析
langchain
数据智能老司机10 小时前
使用 MCP 与 A2A 设计多智能体 AI 系统——构建一个基于工具的智能体 AI 框架
llm·agent
TechFind10 小时前
用 OpenClaw 搭建企业微信 AI Agent:从零到自动化客服只需 30 分钟
人工智能·agent
数据智能老司机10 小时前
使用 MCP 与 A2A 设计多智能体 AI 系统——理解 AI 智能体如何工作
llm·agent