文章目录
-
- 定义
- 分类
- 智能体构成与运行原理
- 智能体应用的协作模式
-
- 作为开发者工具的智能体
- 作为自主协作者的智能体
- [Workflow 和 Agent 的差异](#Workflow 和 Agent 的差异)
定义
在人工智能领域,智能体被定义为任何能够通过传感器(Sensors)感知其所处环境(Environment) ,并自主地通过**执行器(Actuators)采取 行动(Action)**以达成特定目标的实体。
智能体并非只是被动响应外部刺激或严格执行预设指令的程序,它能够基于其感知和内部状态进行独立决策,以达成其设计目标。这种从感知到行动的闭环,构成了所有智能体行为的基础。
我们正从开发专用自动化工具转向构建能自主解决问题的系统。核心不再是编写代码,而是引导一个通用的"大脑"去规划、行动和学习。
分类

- 基于内部决策架构的分类
- 基于时间与反应性的分类
- 反应式智能体 (Reactive Agents)
- 规划式智能体(Deliberative Agents)
- 混合式智能体(Hybrid Agents)
规划、反应、思考
- 基于知识表示的分类
- 符号主义 AI(Symbolic AI)
依赖于一个完备的规则体系,如规则库和知识图谱,会有知识获取瓶颈。 - 亚符号主义 AI(Sub-symbolic AI)
知识并非显式的规则,而是内隐地分布在一个由大量神经元组成的复杂网络中,是从海量数据中学习到的统计模式。神经网络和深度学习是其代表。
它能够轻松处理图像、声音等非结构化数据,在纯粹的逻辑推理任务上表现不佳。 - 神经符号主义 AI(Neuro-Symbolic AI)
一个既能像神经网络一样从数据中学习,又能像符号系统一样进行逻辑推理的混合智能体。
智能体构成与运行原理
任务环境定义
环境通常是部分可观察的,要求智能体必须具备记忆
环境可分为确定性和随机性。要求智能体必须具备处理不确定性、监控变化并及时决策的能力。
环境中还可能存在其他行动者,从而形成多智能体(Multi-agent) 环境。要求智能体可快速响应和策略选择。
几乎所有任务都发生在序贯且动态的环境中。要求智能体的"感知-思考-行动-观察"循环必须能够快速、灵活地适应持续变化的世界。
智能体的运行机制

这个循环主要包含以下几个相互关联的阶段:
- 感知 (Perception):这是循环的起点。智能体通过其传感器(例如,API 的监听端口、用户输入接口)接收来自环境的输入信息。这些信息,即观察 (Observation),既可以是用户的初始指令,也可以是上一步行动所导致的环境状态变化反馈。
- 思考 (Thought) :接收到观察信息后,智能体进入其核心决策阶段。对于 LLM 智能体而言,这通常是由大语言模型驱动的内部推理过程。如图所示,"思考"阶段可进一步细分为两个关键环节:
- 规划 (Planning):智能体基于当前的观察和其内部记忆,更新对任务和环境的理解,并制定或调整一个行动计划。这可能涉及将复杂目标分解为一系列更具体的子任务。
- 工具选择 (Tool Selection):根据当前计划,智能体从其可用的工具库中,选择最适合执行下一步骤的工具,并确定调用该工具所需的具体参数。
- 行动 (Action) :决策完成后,智能体通过其执行器(Actuators)执行具体的行动。这通常表现为调用一个选定的工具(如代码解释器、搜索引擎 API),从而对环境施加影响,意图改变环境的状态。
行动并非循环的终点。智能体的行动会引起环境 (Environment) 的状态变化 (State Change) ,环境随即会产生一个新的观察 (Observation) 作为结果反馈。这个新的观察又会在下一轮循环中被智能体的感知系统捕获,形成一个持续的"感知-思考-行动-观察"的闭环。智能体正是通过不断重复这一循环,逐步推进任务,从初始状态向目标状态演进。
智能体的感知与行动
为了让 LLM 能够有效驱动这个循环,我们需要一套明确的交互协议 (Interaction Protocol) 来规范其与环境之间的信息交换。
两个核心部分:
- Thought (思考):这是智能体内部决策的"快照"。它以自然语言形式阐述了智能体如何分析当前情境、回顾上一步的观察结果、进行自我反思与问题分解,并最终规划出下一步的具体行动。
- Action (行动) :这是智能体基于思考后,决定对环境施加的具体操作,通常以函数调用的形式表示。
例如,一个正在规划旅行的智能体可能会生成如下格式化的输出:
bash
Thought: 用户想知道北京的天气。我需要调用天气查询工具。
Action: get_weather("北京")
这里的Action字段构成了对外部世界的指令。一个外部的解析器 (Parser) 会捕捉到这个指令,并调用相应的get_weather函数。
原始的机器可读数据(如 JSON)通常包含 LLM 无需关注的冗余信息,且格式不符合其自然语言处理的习惯。因此,感知系统的一个重要职责就是扮演传感器的角色:将这个原始输出处理并封装成一段简洁、清晰的自然语言文本,即观察。
bash
Observation: 北京当前天气为晴,气温25摄氏度,微风。
这段Observation文本会被反馈给智能体,作为下一轮循环的主要输入信息,供其进行新一轮的Thought和Action。
智能体应用的协作模式
我们的角色正越来越多地转变为使用者与协作者。
协作模式主要分为两种:一种是作为高效工具,深度融入我们的工作流;另一种则是作为自主的协作者,与其他智能体协作完成复杂目标。
作为开发者工具的智能体
它增强而非取代开发者的角色,通过自动化处理繁琐、重复的任务,让开发者能更专注于创造性的核心工作。如:GitHubCopilot、Claude Code、Trae、Cursor等
作为自主协作者的智能体
在这种模式下,我们不再是手把手地指导 AI 完成每一步,而是将一个高层级的目标委托给它。
从助手到协作者的转变,标志着我们与 AI 的关系从"命令-执行"演变为"目标-委托"。智能体不再是被动的工具,而是主动的目标追求者。
主流方向:
- 单智能体自主循环
核心是一个通用智能体通过"思考-规划-执行-反思"的闭环,不断进行自我提示和迭代,以完成一个开放式的高层级目标。 - 多智能体协作
旨在通过模拟人类团队的协作模式来解决复杂问题。- 角色扮演式对话
如 CAMEL 框架,通过为两个智能体(例如,"程序员"和"产品经理")设定明确的角色和沟通协议,让它们在一个结构化的对话中协同完成任务。 - 组织化工作流
如 MetaGPT 和 CrewAI,它们模拟一个分工明确的"虚拟团队"(如软件公司或咨询小组)。
- 角色扮演式对话
- 高级控制流架构
诸如 LangGraph 等框架,则更侧重于为智能体提供更强大的底层工程基础。它将智能体的执行过程建模为状态图(State Graph),从而能更灵活、更可靠地实现循环、分支、回溯以及人工介入等复杂流程。
Workflow 和 Agent 的差异
简单来说,Workflow 是让 AI 按部就班地执行指令,而 Agent 则是赋予 AI 自由度去自主达成目标。

Agent自主性
- 规划与工具调用: Agent 首先会把任务拆解为两个步骤:① 查询天气;② 基于天气推荐景点。随即,它会自主选择并调用"天气查询 API",并将"北京"作为参数传入。
- 推理与决策: 假设 API 返回结果为"晴朗,微风"。Agent 的 LLM 大脑会基于这个信息进行推理:"晴天适合户外活动"。接着,它会根据这个判断,在它的知识库或通过搜索引擎这个工具中,筛选出北京的户外景点,如故宫、颐和园、天坛公园等。
- 生成结果 : 最后,Agent 会综合信息,给出一个完整的、人性化的回答:"今天北京天气晴朗,微风,非常适合户外游玩。为您推荐前往【颐和园】,您可以在昆明湖上泛舟,欣赏美丽的皇家园林景色。"
基于实时信息进行动态推理和决策的能力,正是 Agent 的核心价值所在。