初识智能体

文章目录

- 定义
- 分类
- 智能体构成与运行原理
- 智能体应用的协作模式
- - 作为开发者工具的智能体
  - 作为自主协作者的智能体
  - [Workflow 和 Agent 的差异](#Workflow 和 Agent 的差异)

定义

在人工智能领域，智能体被定义为任何能够通过传感器（Sensors）感知其所处环境（Environment） ，并自主地通过**执行器（Actuators）采取行动（Action）**以达成特定目标的实体。

智能体并非只是被动响应外部刺激或严格执行预设指令的程序，它能够基于其感知和内部状态进行独立决策，以达成其设计目标。这种从感知到行动的闭环，构成了所有智能体行为的基础。

我们正从开发专用自动化工具转向构建能自主解决问题的系统。核心不再是编写代码，而是引导一个通用的"大脑"去规划、行动和学习。

智能体构成与运行原理

任务环境定义

环境通常是部分可观察的，要求智能体必须具备记忆

环境可分为确定性和随机性。要求智能体必须具备处理不确定性、监控变化并及时决策的能力。

环境中还可能存在其他行动者，从而形成多智能体(Multi-agent) 环境。要求智能体可快速响应和策略选择。

几乎所有任务都发生在序贯且动态的环境中。要求智能体的"感知-思考-行动-观察"循环必须能够快速、灵活地适应持续变化的世界。

智能体的运行机制

这个循环主要包含以下几个相互关联的阶段：

感知 (Perception)：这是循环的起点。智能体通过其传感器（例如，API 的监听端口、用户输入接口）接收来自环境的输入信息。这些信息，即观察 (Observation)，既可以是用户的初始指令，也可以是上一步行动所导致的环境状态变化反馈。
思考 (Thought) ：接收到观察信息后，智能体进入其核心决策阶段。对于 LLM 智能体而言，这通常是由大语言模型驱动的内部推理过程。如图所示，"思考"阶段可进一步细分为两个关键环节：
- 规划 (Planning)：智能体基于当前的观察和其内部记忆，更新对任务和环境的理解，并制定或调整一个行动计划。这可能涉及将复杂目标分解为一系列更具体的子任务。
- 工具选择 (Tool Selection)：根据当前计划，智能体从其可用的工具库中，选择最适合执行下一步骤的工具，并确定调用该工具所需的具体参数。
行动 (Action) ：决策完成后，智能体通过其执行器（Actuators）执行具体的行动。这通常表现为调用一个选定的工具（如代码解释器、搜索引擎 API），从而对环境施加影响，意图改变环境的状态。
行动并非循环的终点。智能体的行动会引起环境 (Environment) 的状态变化 (State Change) ，环境随即会产生一个新的观察 (Observation) 作为结果反馈。这个新的观察又会在下一轮循环中被智能体的感知系统捕获，形成一个持续的"感知-思考-行动-观察"的闭环。智能体正是通过不断重复这一循环，逐步推进任务，从初始状态向目标状态演进。

智能体的感知与行动

为了让 LLM 能够有效驱动这个循环，我们需要一套明确的交互协议 (Interaction Protocol) 来规范其与环境之间的信息交换。

两个核心部分：

Thought (思考)：这是智能体内部决策的"快照"。它以自然语言形式阐述了智能体如何分析当前情境、回顾上一步的观察结果、进行自我反思与问题分解，并最终规划出下一步的具体行动。
Action (行动) ：这是智能体基于思考后，决定对环境施加的具体操作，通常以函数调用的形式表示。
例如，一个正在规划旅行的智能体可能会生成如下格式化的输出：

bash 复制代码

Thought: 用户想知道北京的天气。我需要调用天气查询工具。
Action: get_weather("北京")

这里的Action字段构成了对外部世界的指令。一个外部的解析器 (Parser) 会捕捉到这个指令，并调用相应的get_weather函数。

原始的机器可读数据（如 JSON）通常包含 LLM 无需关注的冗余信息，且格式不符合其自然语言处理的习惯。因此，感知系统的一个重要职责就是扮演传感器的角色：将这个原始输出处理并封装成一段简洁、清晰的自然语言文本，即观察。

bash 复制代码

Observation: 北京当前天气为晴，气温25摄氏度，微风。

这段Observation文本会被反馈给智能体，作为下一轮循环的主要输入信息，供其进行新一轮的Thought和Action。

智能体应用的协作模式

我们的角色正越来越多地转变为使用者与协作者。

协作模式主要分为两种：一种是作为高效工具，深度融入我们的工作流；另一种则是作为自主的协作者，与其他智能体协作完成复杂目标。

作为开发者工具的智能体

它增强而非取代开发者的角色，通过自动化处理繁琐、重复的任务，让开发者能更专注于创造性的核心工作。如：GitHubCopilot、Claude Code、Trae、Cursor等

作为自主协作者的智能体

在这种模式下，我们不再是手把手地指导 AI 完成每一步，而是将一个高层级的目标委托给它。

从助手到协作者的转变，标志着我们与 AI 的关系从"命令-执行"演变为"目标-委托"。智能体不再是被动的工具，而是主动的目标追求者。

主流方向：

单智能体自主循环
核心是一个通用智能体通过"思考-规划-执行-反思"的闭环，不断进行自我提示和迭代，以完成一个开放式的高层级目标。
多智能体协作
旨在通过模拟人类团队的协作模式来解决复杂问题。
- 角色扮演式对话
  如 CAMEL 框架，通过为两个智能体（例如，"程序员"和"产品经理"）设定明确的角色和沟通协议，让它们在一个结构化的对话中协同完成任务。
- 组织化工作流
  如 MetaGPT 和 CrewAI，它们模拟一个分工明确的"虚拟团队"（如软件公司或咨询小组）。
高级控制流架构
诸如 LangGraph 等框架，则更侧重于为智能体提供更强大的底层工程基础。它将智能体的执行过程建模为状态图（State Graph），从而能更灵活、更可靠地实现循环、分支、回溯以及人工介入等复杂流程。

Workflow 和 Agent 的差异

简单来说，Workflow 是让 AI 按部就班地执行指令，而 Agent 则是赋予 AI 自由度去自主达成目标。

Agent自主性

规划与工具调用： Agent 首先会把任务拆解为两个步骤：① 查询天气；② 基于天气推荐景点。随即，它会自主选择并调用"天气查询 API"，并将"北京"作为参数传入。
推理与决策：假设 API 返回结果为"晴朗，微风"。Agent 的 LLM 大脑会基于这个信息进行推理："晴天适合户外活动"。接着，它会根据这个判断，在它的知识库或通过搜索引擎这个工具中，筛选出北京的户外景点，如故宫、颐和园、天坛公园等。
生成结果 ：最后，Agent 会综合信息，给出一个完整的、人性化的回答："今天北京天气晴朗，微风，非常适合户外游玩。为您推荐前往【颐和园】，您可以在昆明湖上泛舟，欣赏美丽的皇家园林景色。"
基于实时信息进行动态推理和决策的能力，正是 Agent 的核心价值所在。