从0到1开发ReAct智能体：原理、实现与最佳实践

引言

大语言模型（LLM）的出现让机器具备了强大的文本理解和生成能力，但纯粹的语言模型往往受限于训练数据的时间范围和无法与外部世界交互的约束。为了让LLM能够解决更复杂的实际问题，研究者提出了多种"智能体"（Agent）架构，其中最具代表性且易于实现的就是ReAct（Reasoning + Acting）模式。ReAct通过将推理 （Reasoning）与行动（Acting）交织在一起，让LLM能够动态地思考、制定计划、调用外部工具，并根据观察结果迭代调整，从而完成诸如信息查询、计算、数据分析等任务。

本文旨在手把手带你从零开始开发一个ReAct智能体，即便你只有基础的Python知识，也能在阅读完本文后搭建出一个可运行的最小化可行产品（MVP）。我们将从理论出发，逐步深入到代码实现，并提供三个表格、三个参考链接，以及一份完整的核心代码，帮助你快速上手。

1. ReAct模式解析

1.1 传统LLM应用的局限

传统上，使用LLM完成任务的方式是"一次成型"：用户输入问题，模型直接输出答案。这种方式在面对需要多步推理或外部信息获取的任务时显得力不从心。例如，问"今天北京天气怎么样，适合户外运动吗？"------模型若只靠内部知识，可能给出过时的天气数据，或者无法结合实时信息进行判断。

1.2 ReAct的核心思想

ReAct模式由姚顺雨等人在2022年的论文《ReAct: Synergizing Reasoning and Acting in Language Models》中提出。其核心思想是：在模型生成最终答案之前，允许它交替输出"推理"和"行动"步骤，形成一个可执行的轨迹。

推理（Reasoning）：模型用自然语言表述当前状态、下一步计划、需要什么信息等。这类似于人的"内心独白"。
行动（Acting）：模型输出一个具体的行动指令，例如调用一个工具（搜索、计算、数据库查询等）。系统执行该行动后，将结果作为"观察"（Observation）反馈给模型。

通过这种Thought → Action → Observation的循环，模型可以逐步逼近问题的答案，并具备实时获取信息的能力。

1.3 一个简单的ReAct轨迹示例

假设用户问："谁获得了2023年诺贝尔文学奖？他的代表作是什么？"

模型可能产生如下轨迹：

复制代码

Thought 1: 我需要先查询2023年诺贝尔文学奖得主。
Action 1: search("2023年诺贝尔文学奖得主")
Observation 1: 约恩·福瑟（Jon Fosse）

Thought 2: 现在我知道了得主是约恩·福瑟，接下来需要查询他的代表作。
Action 2: search("约恩·福瑟 代表作")
Observation 2: 代表作包括《七部曲》《有人将至》《秋之梦》等。

Thought 3: 我已经获得了所需信息，可以给出答案了。
Action 3: finish("2023年诺贝尔文学奖得主是约恩·福瑟，他的代表作有《七部曲》《有人将至》《秋之梦》等。")

可以看到，模型通过"思考-行动-观察"的循环，逐步获取了完整信息，最终输出答案。

2. ReAct智能体的核心组件

要开发一个ReAct智能体，我们需要以下组件：

组件	职责	实现方式举例
LLM引擎	生成推理文本和行动指令	OpenAI API、Anthropic API、本地模型（如Llama）
提示模板	定义智能体的行为模式、可用工具、输入输出格式	包含系统指令、工具描述、示例轨迹的字符串模板
工具集	可供智能体调用的外部函数	Python函数（搜索API、计算器、数据库查询等）
执行器	解析LLM输出的行动指令，调用对应工具并获取观察结果	正则解析、JSON解析、函数映射
状态/记忆	保存对话历史或中间步骤，供后续推理参考	列表存储每一轮（Thought, Action, Observation）
主循环	控制推理-行动循环，直到达到终止条件	`while`循环，判断是否输出最终答案

3. 从0开始实现最小MVP

为了让大家快速理解，我们将用一个极简的Python脚本实现一个ReAct智能体。该智能体将具备两个工具：一个用于数学计算，一个用于模拟天气查询。我们使用OpenAI的GPT-3.5-Turbo作为LLM（你可以替换为其他API或本地模型）。

3.1 环境准备

首先安装必要的库：

bash 复制代码

pip install openai

如果你没有OpenAI API Key，可以注册并获取一个，或者改用其他兼容OpenAI API的服务（如本地部署的vLLM）。

3.2 定义工具

工具是Python函数，接收字符串参数，返回字符串结果。我们定义两个简单的工具：

python 复制代码

import math

def calculate(expression: str) -> str:
    """计算数学表达式，例如 '2 + 3 * 4'"""
    try:
        # 注意：eval存在安全风险，此处仅为示例，生产环境请使用安全计算库如ast.literal_eval或限制表达式
        result = eval(expression, {"__builtins__": {}}, {"math": math})
        return str(result)
    except Exception as e:
        return f"计算错误: {e}"

def get_weather(city: str) -> str:
    """模拟天气查询，返回固定数据"""
    # 实际应用中可调用真实天气API
    weather_data = {
        "北京": "晴，25度",
        "上海": "多云，28度",
        "深圳": "阵雨，30度"
    }
    return weather_data.get(city, "未找到该城市天气")

3.3 构造提示模板

提示模板是关键，它告诉LLM如何思考、如何调用工具、以及期望的输出格式。我们采用类似论文中的格式：

复制代码

你是一个智能助手，可以使用以下工具：
1. calculate(expression): 计算数学表达式，例如 calculate("2+3")
2. get_weather(city): 获取城市天气，例如 get_weather("北京")

请按以下格式回答：
Thought: 你的思考过程
Action: 要调用的工具名称和参数，如 calculate("2+3")
Observation: 工具返回的结果
...（重复 Thought/Action/Observation 直到可以给出最终答案）
Thought: 我已经获得了足够信息
Action: finish(最终答案)

我们将把这个模板与历史轨迹拼接，形成每次请求的提示。

3.4 解析LLM输出

LLM的输出可能包含多行，我们需要从中解析出Action:行。同时，我们还需要处理可能出现的格式错误。这里用正则表达式提取：

python 复制代码

import re

def parse_action(llm_output):
    # 寻找 Action: 行
    match = re.search(r"Action:\s*(.+?)(?:\n|$)", llm_output)
    if not match:
        return None, None
    action_line = match.group(1).strip()
    # 解析工具名和参数，假设格式为 tool_name("args")
    pattern = r"(\w+)\((.*)\)"
    m = re.match(pattern, action_line)
    if m:
        tool_name = m.group(1)
        args_str = m.group(2).strip('"\'')
        return tool_name, args_str
    return None, None

同时，为了获取完整的思考过程，我们可能还需要存储Thought:的内容，但为了简化，这里我们只解析Action。

3.5 主循环

主循环负责：

维护对话历史（每轮的Thought、Action、Observation）
构造提示并调用LLM
解析输出，若为finish则结束，否则执行工具并追加观察结果

python 复制代码

import openai

openai.api_key = "your-api-key"

def run_agent(user_input, max_steps=5):
    # 初始提示
    system_prompt = """你是一个智能助手，可以使用以下工具：
1. calculate(expression): 计算数学表达式，例如 calculate("2+3")
2. get_weather(city): 获取城市天气，例如 get_weather("北京")

请按以下格式回答：
Thought: 你的思考过程
Action: 要调用的工具名称和参数，如 calculate("2+3")
Observation: 工具返回的结果
...（重复直到可以给出最终答案）
Thought: 我已经获得了足够信息
Action: finish(最终答案)"""
    
    messages = [
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": user_input}
    ]
    
    step = 0
    while step < max_steps:
        # 调用LLM
        response = openai.ChatCompletion.create(
            model="gpt-3.5-turbo",
            messages=messages,
            temperature=0
        )
        llm_output = response.choices[0].message.content
        messages.append({"role": "assistant", "content": llm_output})
        
        # 解析行动
        tool_name, args = parse_action(llm_output)
        if tool_name is None:
            print("无法解析行动，停止")
            break
        
        # 如果是结束行动
        if tool_name == "finish":
            print("最终答案:", args)
            return args
        
        # 执行工具
        if tool_name == "calculate":
            observation = calculate(args)
        elif tool_name == "get_weather":
            observation = get_weather(args)
        else:
            observation = f"未知工具: {tool_name}"
        
        # 将观察结果加入对话
        messages.append({"role": "user", "content": f"Observation: {observation}"})
        print(f"Step {step+1}: {tool_name}({args}) -> {observation}")
        step += 1
    
    print("达到最大步数，未完成")
    return None

3.6 测试智能体

我们可以尝试问几个问题：

python 复制代码

run_agent("计算 (3 + 5) * 2 的结果")
run_agent("北京的天气怎么样？适合户外运动吗？")

注意，第二个问题中，模型可能会先查询天气，然后判断是否适合户外运动，这需要模型有推理能力。由于我们未对"适合户外运动"提供规则，模型可能会在得到天气后直接输出最终答案，这也符合预期。

4. 深入优化与扩展

上述MVP虽然能工作，但存在诸多不足。下面我们探讨如何将其扩展为一个生产可用的ReAct智能体。

4.1 工具定义与注册

将工具映射到函数名，支持动态注册。可以设计一个工具注册表：

python 复制代码

tools = {
    "calculate": calculate,
    "get_weather": get_weather,
    # 更多工具...
}

在解析时，直接从注册表获取函数并调用。

4.2 更强的输出解析

LLM的输出可能包含多种格式，例如有时会输出多行Action，或参数带引号但内部有逗号。我们可以使用更健壮的正则，或者要求模型输出JSON格式。例如，我们可以修改提示模板，让模型输出JSON：

json 复制代码

{
  "thought": "...",
  "action": {
    "name": "calculate",
    "args": ["2+3"]
  }
}

这样解析更可靠。但要注意，模型输出的JSON可能不完整，需要容错处理。

4.3 记忆管理

在多轮对话中，我们通常希望智能体记住之前的信息。在上述实现中，我们将所有历史消息都保存在messages列表中，这可能导致token数量快速增长。为了解决这个问题，可以：

设置最大历史轮数，超过后丢弃早期的消息。
使用摘要技术，将早期对话压缩成摘要。
使用向量数据库存储长期记忆，按需检索。

4.4 工具调用错误处理

当工具调用失败时（如API超时、参数错误），应给模型返回明确的错误信息，让模型有机会调整。例如，如果calculate计算失败，返回"计算错误: ..."，模型可以尝试修改表达式或放弃。

4.5 并发与异步

对于需要同时调用多个工具的场景，可以让模型在一次Action中调用多个工具（如并行执行），但实现较复杂。一种简单的方式是让模型逐个调用。

4.6 成本控制

每次调用LLM都涉及费用，且多轮对话可能增加token消耗。可以：

限制最大步数。
使用较小的模型（如GPT-3.5-turbo）进行大部分推理，只在必要时调用大模型。
缓存常见问题的结果。

4.7 安全与沙箱

如果智能体可以执行任意代码（如eval），存在严重安全风险。在实际应用中，应：

对工具进行严格的输入校验。
使用受限的Python执行环境（如exec限制全局变量）。
避免使用eval，改用安全计算库（如numexpr）或解析表达式后计算。

5. 应用案例

ReAct智能体可以应用于多种场景：

5.1 信息查询助手

集成搜索引擎API、维基百科API、新闻API等，让智能体能够回答需要实时信息的问题。例如，"查找最近一周关于AI的新闻，并总结出三个热点"。

5.2 数据分析助手

提供对数据库的查询工具（如SQL执行器），让智能体能够分析数据。例如，"在销售表中找出上月销量最高的产品"。

5.3 自动化办公

集成邮件发送、日程管理、文档处理等工具，智能体可以根据自然语言指令执行一系列操作。例如，"给所有项目组成员发一封会议邀请邮件"。

5.4 代码辅助

提供代码执行环境（如Jupyter内核），智能体可以编写、运行代码并调试。例如，"写一个函数，计算斐波那契数列第n项，并测试n=10的结果"。

6. 挑战与最佳实践

6.1 可靠性与可观测性

ReAct智能体的行为依赖于LLM的生成质量，可能产生以下问题：

幻觉：模型可能会编造Observation或Action。
循环：模型可能陷入重复的思考-行动循环。
不遵循格式：输出格式错乱导致解析失败。

应对策略：

提示工程：提供清晰的示例（few-shot）和约束。
输出校验：对解析失败的输出进行重试或回退。
监控与日志：记录每一轮的输入输出，便于调试和分析。

6.2 成本控制

多轮对话的token消耗可能迅速增加。建议：

使用流式输出（streaming）减少等待时间，但不减少token。
设置合理的最大步数（通常3-5步即可解决大部分问题）。
对于简单问题，可以先用轻量级判断是否需要工具，避免无谓的调用。

6.3 工具设计原则

单一职责：每个工具只做一件事，便于模型理解。
清晰描述：在提示中准确描述工具的功能、参数和返回值。
友好错误：工具应返回人类可读的错误信息，便于模型调整。

6.4 扩展性

随着工具数量增加，提示会变得很长，可能超出模型上下文窗口。可以考虑：

动态选择相关工具：根据用户问题，先用一个轻量级模型或分类器筛选出可能用到的工具，再生成提示。
使用工具描述嵌入，通过相似度检索相关工具。

7. 总结与展望

本文从零开始介绍了ReAct智能体的开发过程，包括核心概念、组件设计、最小实现以及扩展优化。ReAct模式通过将推理与行动交织，极大地扩展了LLM的能力边界，使其能够处理需要多步交互和实时信息的复杂任务。

随着大模型技术的发展，ReAct智能体将变得更加强大和易用。未来，我们可以期待：

更高效的推理：模型能够更好地规划行动序列，减少不必要的步骤。
多模态工具：支持图像、音频等模态的输入输出。
自主学习：智能体能够从错误中学习，动态改进工具使用策略。

希望本文能为你开启智能体开发的大门。动手实践是掌握技术的最佳途径，不妨从MVP开始，逐步添加更多工具，体验ReAct的威力。

参考链接

ReAct 论文 (arXiv) - 提出ReAct框架的原始论文。
LangChain 文档 - LangChain的智能体模块，提供了ReAct等多种实现。
OpenAI 函数调用指南 - OpenAI的函数调用功能，可以简化工具调用。

附录：对比表格

表1：ReAct与传统提示工程对比

特性	传统提示工程	ReAct智能体
交互方式	单次输入-输出	多轮推理-行动循环
外部知识	依赖模型内部知识	可实时调用工具获取信息
复杂任务	需要一次性生成完整计划	分步执行，动态调整
可解释性	输出答案，中间过程不透明	显示推理轨迹，易于调试
实现复杂度	低	中

表2：常用工具及其描述

工具名称	功能描述	示例调用
search	搜索引擎查询	search("机器学习最新进展")
calculate	数学计算	calculate("3.14 * 5^2")
get_weather	获取天气	get_weather("东京")
sql_query	执行SQL查询	sql_query("SELECT * FROM users WHERE age > 18")
send_email	发送邮件	send_email("user@example.com", "主题", "内容")
run_code	执行代码	run_code("print('hello')")

表3：智能体组件职责与实现方式

组件	职责	实现方式
LLM引擎	生成推理和行动	OpenAI API, 本地模型（Llama, Mistral）
提示模板	定义行为模式	系统消息 + 工具描述 + few-shot示例
工具集	外部功能	Python函数，包装API调用
执行器	解析并调用工具	正则解析、JSON解析、函数映射表
状态管理	维护上下文	消息列表、数据库、向量存储
主循环	控制迭代	while循环，终止条件判断

核心代码（完整MVP）

为了方便大家直接运行，这里给出一个完整的Python脚本（需要替换API Key）：

python 复制代码

import openai
import re
import math

# 设置你的OpenAI API Key
openai.api_key = "your-api-key"

# ========== 工具定义 ==========
def calculate(expression: str) -> str:
    """安全计算数学表达式"""
    try:
        # 限制可用函数，避免危险调用
        allowed_names = {"math": math, "__builtins__": {}}
        result = eval(expression, {"__builtins__": {}}, {"math": math})
        return str(result)
    except Exception as e:
        return f"计算错误: {e}"

def get_weather(city: str) -> str:
    """模拟天气查询"""
    weather_data = {
        "北京": "晴，25度",
        "上海": "多云，28度",
        "深圳": "阵雨，30度"
    }
    return weather_data.get(city, "未找到该城市天气")

# 工具注册表
TOOLS = {
    "calculate": calculate,
    "get_weather": get_weather,
}

# ========== 提示模板 ==========
SYSTEM_PROMPT = """你是一个智能助手，可以使用以下工具：
1. calculate(expression): 计算数学表达式，例如 calculate("2+3")
2. get_weather(city): 获取城市天气，例如 get_weather("北京")

请按以下格式回答：
Thought: 你的思考过程
Action: 要调用的工具名称和参数，如 calculate("2+3")
Observation: 工具返回的结果
...（重复 Thought/Action/Observation 直到可以给出最终答案）
Thought: 我已经获得了足够信息
Action: finish(最终答案)"""

# ========== 解析函数 ==========
def parse_action(llm_output):
    """从LLM输出中提取 Action: 行，并解析工具名和参数"""
    match = re.search(r"Action:\s*(.+?)(?:\n|$)", llm_output)
    if not match:
        return None, None
    action_line = match.group(1).strip()
    pattern = r"(\w+)\((.*)\)"
    m = re.match(pattern, action_line)
    if m:
        tool_name = m.group(1)
        args_str = m.group(2).strip('"\'')
        return tool_name, args_str
    return None, None

# ========== 主循环 ==========
def run_agent(user_input, max_steps=5):
    messages = [
        {"role": "system", "content": SYSTEM_PROMPT},
        {"role": "user", "content": user_input}
    ]
    
    step = 0
    while step < max_steps:
        response = openai.ChatCompletion.create(
            model="gpt-3.5-turbo",
            messages=messages,
            temperature=0
        )
        llm_output = response.choices[0].message.content
        messages.append({"role": "assistant", "content": llm_output})
        print(f"\n--- Step {step+1} ---")
        print(llm_output)
        
        tool_name, args = parse_action(llm_output)
        if tool_name is None:
            print("无法解析行动，终止。")
            break
        
        if tool_name == "finish":
            print(f"最终答案: {args}")
            return args
        
        if tool_name in TOOLS:
            observation = TOOLS[tool_name](args)
        else:
            observation = f"未知工具: {tool_name}"
        
        messages.append({"role": "user", "content": f"Observation: {observation}"})
        step += 1
    
    print("达到最大步数，未完成。")
    return None

# ========== 运行示例 ==========
if __name__ == "__main__":
    # 测试1：数学计算
    run_agent("计算 (3 + 5) * 2 的结果")
    
    # 测试2：天气查询
    run_agent("北京的天气怎么样？")

运行上述代码，你将看到智能体一步步思考、调用工具、并最终输出答案。

结束语

通过本文，你已经掌握了ReAct智能体的核心原理和实现方法。从最简单的MVP出发，你可以不断扩展工具、优化提示、增强稳定性，构建出能够解决实际问题的智能助手。智能体开发是一个快速发展的领域，保持学习，大胆尝试，你将能够驾驭未来的AI应用。

Happy Coding！