初识智能体 Part 2：智能体的决策架构与认知模型

在上篇中，我们探讨了智能体的本质定义及其从"规则驱动"到"大模型驱动"的演进。本篇将深入剖析智能体的分类体系，并利用 PEAS 模型对任务环境进行精确规约。

第一种分类维度是依据智能体内部决策架构的复杂程度。传统智能体的演进路径本身就构成了最经典的分类阶梯：从简单的反应式智能体，到引入内部模型的模型式智能体，再到更具前瞻性的基于目标和基于效用的智能体。

除了内部架构的复杂性，还可以从智能体处理决策的时间维度进行分类。这个视角揭示了智能体设计中一个核心权衡：追求速度的反应性 (Reactivity) 与追求最优解的规划性 (Deliberation) 之间的平衡。

下图展示了两者在决策时间与决策质量上的关系：

反应式智能体 (Reactive Agents)
- 特点：对环境刺激做出近乎即时的响应，决策延迟极低。遵循从感知到行动的直接映射。
- 优势：速度快、计算开销低。适用于车辆安全气囊、高频交易等场景。
- 代价："短视"。由于缺乏长远规划，容易陷入局部最优，难以完成需要多步骤协调的复杂任务。
规划式智能体 (Deliberative Agents)
- 特点：在行动前会利用内部世界模型，系统地探索未来的各种可能性，评估不同行动序列的后果。
- 优势：决策具有战略性和远见。适用于制定商业计划或规划长途旅行。
- 代价：高昂的时间和计算成本。在瞬息万变的环境中，可能因思考过久而错过行动时机。
混合式智能体 (Hybrid Agents)
- 定义：结合两者的优点，实现反应与规划的平衡。
- 现代 LLM 智能体模式：通常在一个"思考-行动-观察"的循环中运作，巧妙地将两种模式融为一体：
- 规划 (Reasoning)：在"思考"阶段，LLM 分析状况并规划下一步。这是一个审议过程。
- 反应 (Acting & Observing)：在"行动"和"观察"阶段，智能体与工具交互并获得反馈。这是一个反应过程。

这是一个更根本的分类维度，它探究智能体用以决策的知识，究竟是以何种形式存于其"思想"之中。

符号主义 AI (Symbolic AI)
- 核心信念：智能源于对符号（如词语、概念）的逻辑操作。
- 比喻："一丝不苟的图书管理员"，将知识整理为规则库和知识图谱。
- 优势：透明、可解释。决策过程可完整追溯。
- 缺陷：脆弱性与"知识获取瓶颈"。难以应对模糊和例外的现实世界。
亚符号主义 AI (Sub-symbolic AI)
- 核心信念：知识内隐地分布在神经网络中，是从海量数据中学习到的统计模式。
- 比喻："牙牙学语的孩童"，通过看成千上万张图来辨识"猫"的视觉模式，而非学习规则。
- 优势：强大的模式识别能力，对噪声数据鲁棒。
- 缺陷：黑箱 (Black Box) 与不透明性。难以解释"为什么"，且可能产生幻觉。
神经符号主义 AI (Neuro-Symbolic AI)
- 目标：融合两大范式，创造既能从数据学习又能进行逻辑推理的混合智能体。
- 理论支撑 ：丹尼尔·卡尼曼的《思考，快与慢》双系统理论。
  - 系统 1：快速、直觉、并行（类似于亚符号主义）。
  - 系统 2：缓慢、有条理、逻辑审慎（类似于符号主义）。

LLM 实践：LLM 智能体是神经符号主义的极佳实践。其内核（神经网络）提供模式识别（系统 1），而通过生成结构化的"思想、计划" (Chain of Thought)，实现了逻辑推理（系统 2）。

要理解智能体的运作，我们必须先理解它所处的任务环境。在人工智能领域，通常使用 PEAS 模型 来精确描述一个任务环境。

下表展示了如何运用 PEAS 模型对智能旅行助手进行规约：

维度	描述
Performance (性能度量)	在预算和时间内，最大化用户满意度与行程合理性
Environment (环境)	航旅预订网站、地图服务、天气预报 API 等网络服务
Actuators (执行器)	调用 API 的函数、向用户界面生成和显示格式化文本
Sensors (传感器)	解析 API 返回的数据 (如 JSON, HTML)、读取用户输入的自然语言

在实践中，LLM 智能体所处的数字环境展现出若干复杂特性，直接影响设计：

部分可观察 (Partially Observable) ：

智能体无法一次性获取全貌。例如，无法一次性拉取所有航司的所有数据，必须具备记忆（记住已查过的）和探索（尝试不同日期）的能力。
随机性 (Stochastic) ：

行动结果不确定。例如，两次查询机票，价格和余票可能不同。智能体必须具备处理不确定性、监控变化的能力。
多智能体 (Multi-agent) ：

环境中存在其他行动者（如其他用户的抢票行为、航司的动态调价系统）。这要求智能体能快速响应。
序贯且动态 (Sequential & Dynamic)：
- 序贯：当前动作影响未来。
- 动态：环境自身在变化。智能体的"感知-思考-行动-观察"循环必须快速适应。