智能体框架开发实战

智能体（Agent）是指能够感知环境、自主做出决策并执行动作以实现目标的实体。在人工智能领域，特别是大模型时代，智能体通常指以大型语言模型（LLM）为核心，通过规划、记忆、工具使用等能力完成复杂任务的程序。

一、智能体的核心组成

一个典型的 LLM 智能体包含以下模块：

感知（Perception）

接收环境输入（用户指令、系统状态、外部数据等），将其转化为模型可理解的表示。
大脑（LLM）

负责推理、规划、决策。常用大语言模型（如 GPT-4、Claude、Llama）作为核心，通过提示工程引导其思考过程。
规划（Planning）

将复杂任务分解为子任务，支持多步推理。常见范式有：
- ReAct：交替进行推理（Thought）与行动（Action），让模型边思考边执行。
- Chain of Thought（CoT）：引导模型逐步推理。
- Plan-and-Execute：先生成完整计划，再逐步执行。
记忆（Memory）
- 短期记忆：当前对话或任务中的上下文（通常用滑动窗口或缓存实现）。
- 长期记忆：向量数据库存储历史交互、领域知识，支持检索增强（RAG）。
工具使用（Tools）

智能体需要调用外部能力：搜索、代码执行、API 调用、数据库查询等。通过函数调用（Function Calling）或结构化输出实现。
执行（Action）

将决策转化为具体动作，修改环境或返回结果。

2.Python 生态方案

│ React + │ ←→ │ FastAPI + │ ←→ │ PostgreSQL │

│ TypeScript │ HTTP │ LangChain │ ←→ │ Redis │

│ Tailwind │ │ Celery

celery是一个简单，灵活、可靠的分布式任务执行框架，可以支持大量任务的并发执行。

与大模型通信示例

javascript 复制代码

{
  "model": "deepseek-chat",           // 使用的AI模型名称
  "messages_count": 4,               // 总共发送了4条消息（实际显示3条，因为省略了第1条系统消息）
  "messages": [                      // 消息历史记录
    {
      "role": "user",                // 用户消息
      "content": "计算器",            // 用户输入：调用计算器
      "timestamp": "...",            // 消息时间戳
      "metadata": {},                // 额外的元数据
      "tool_calls": null,            // 工具调用信息（此次没有）
      "tool_response": null          // 工具响应（此次没有）
    },
    {
      "role": "assistant",           // AI助手响应
      "content": "你好！我可以帮你...", // 助手的回复
      ...
    },
    {
      "role": "user",                // 用户再次输入
      "content": "34*23",            // 用户要计算的表达式
      ...
    }
  ],
  "tools_provided": true,            // 是否向AI提供了工具定义
  "tools_count": 3                  // 提供了3个工具（计算器、查询天气、当前时间）
}

对话流程：

第1条消息（省略）: 系统提示词 - "你是一个友好的智能助手..."
第2条消息: 用户说"计算器"
第3条消息: 助手回复"你好！我可以帮你进行数学计算..."
第4条消息: 用户输入"34*23"等待计算

关键点：

上下文管理: 智能体保留了之前的对话历史（系统消息 + 历史对话）
工具信息: 虽然提供了3个工具，但目前AI是通过对话内容判断需要计算，而非自动调用工具API
记忆功能: 所有的对话都被保存在智能体的记忆中，用于维持上下文

这种设计让AI能够理解对话的连续性，就像记住之前的对话一样。