智能体(Agent)是指能够感知环境、自主做出决策并执行动作以实现目标的实体。在人工智能领域,特别是大模型时代,智能体通常指以大型语言模型(LLM)为核心,通过规划、记忆、工具使用等能力完成复杂任务的程序。
一、智能体的核心组成
一个典型的 LLM 智能体包含以下模块:
-
感知(Perception)
接收环境输入(用户指令、系统状态、外部数据等),将其转化为模型可理解的表示。
-
大脑(LLM)
负责推理、规划、决策。常用大语言模型(如 GPT-4、Claude、Llama)作为核心,通过提示工程引导其思考过程。
-
规划(Planning)
将复杂任务分解为子任务,支持多步推理。常见范式有:
-
ReAct:交替进行推理(Thought)与行动(Action),让模型边思考边执行。
-
Chain of Thought(CoT):引导模型逐步推理。
-
Plan-and-Execute:先生成完整计划,再逐步执行。
-
-
记忆(Memory)
-
短期记忆:当前对话或任务中的上下文(通常用滑动窗口或缓存实现)。
-
长期记忆:向量数据库存储历史交互、领域知识,支持检索增强(RAG)。
-
-
工具使用(Tools)
智能体需要调用外部能力:搜索、代码执行、API 调用、数据库查询等。通过函数调用(Function Calling)或结构化输出实现。
-
执行(Action)
将决策转化为具体动作,修改环境或返回结果。
2.Python 生态方案
│ React + │ ←→ │ FastAPI + │ ←→ │ PostgreSQL │
│ TypeScript │ HTTP │ LangChain │ ←→ │ Redis │
│ Tailwind │ │ Celery
celery是一个简单,灵活、可靠的分布式任务执行框架,可以支持大量任务的并发执行。
与大模型通信示例
javascript
{
"model": "deepseek-chat", // 使用的AI模型名称
"messages_count": 4, // 总共发送了4条消息(实际显示3条,因为省略了第1条系统消息)
"messages": [ // 消息历史记录
{
"role": "user", // 用户消息
"content": "计算器", // 用户输入:调用计算器
"timestamp": "...", // 消息时间戳
"metadata": {}, // 额外的元数据
"tool_calls": null, // 工具调用信息(此次没有)
"tool_response": null // 工具响应(此次没有)
},
{
"role": "assistant", // AI助手响应
"content": "你好!我可以帮你...", // 助手的回复
...
},
{
"role": "user", // 用户再次输入
"content": "34*23", // 用户要计算的表达式
...
}
],
"tools_provided": true, // 是否向AI提供了工具定义
"tools_count": 3 // 提供了3个工具(计算器、查询天气、当前时间)
}
对话流程:
- 第1条消息(省略): 系统提示词 - "你是一个友好的智能助手..."
- 第2条消息: 用户说"计算器"
- 第3条消息: 助手回复"你好!我可以帮你进行数学计算..."
- 第4条消息: 用户输入"34*23"等待计算
关键点:
- 上下文管理: 智能体保留了之前的对话历史(系统消息 + 历史对话)
- 工具信息: 虽然提供了3个工具,但目前AI是通过对话内容判断需要计算,而非自动调用工具API
- 记忆功能: 所有的对话都被保存在智能体的记忆中,用于维持上下文
这种设计让AI能够理解对话的连续性,就像记住之前的对话一样。