初识智能体

文章目录

定义

在人工智能领域,智能体被定义为任何能够通过传感器(Sensors)感知其所处环境(Environment) ,并自主地通过**执行器(Actuators)采取 行动(Action)**以达成特定目标的实体。

智能体并非只是被动响应外部刺激或严格执行预设指令的程序,它能够基于其感知和内部状态进行独立决策,以达成其设计目标。这种从感知到行动的闭环,构成了所有智能体行为的基础。

我们正从开发专用自动化工具转向构建能自主解决问题的系统。核心不再是编写代码,而是引导一个通用的"大脑"去规划、行动和学习。

分类

  1. 基于内部决策架构的分类
  2. 基于时间与反应性的分类
  • 反应式智能体 (Reactive Agents)
  • 规划式智能体(Deliberative Agents)
  • 混合式智能体(Hybrid Agents)
    规划、反应、思考
  1. 基于知识表示的分类
  • 符号主义 AI(Symbolic AI)
    依赖于一个完备的规则体系,如规则库和知识图谱,会有知识获取瓶颈。
  • 亚符号主义 AI(Sub-symbolic AI)
    知识并非显式的规则,而是内隐地分布在一个由大量神经元组成的复杂网络中,是从海量数据中学习到的统计模式。神经网络和深度学习是其代表。
    它能够轻松处理图像、声音等非结构化数据,在纯粹的逻辑推理任务上表现不佳。
  • 神经符号主义 AI(Neuro-Symbolic AI)
    一个既能像神经网络一样从数据中学习,又能像符号系统一样进行逻辑推理的混合智能体。

智能体构成与运行原理

任务环境定义

环境通常是部分可观察的,要求智能体必须具备记忆

环境可分为确定性和随机性。要求智能体必须具备处理不确定性、监控变化并及时决策的能力。

环境中还可能存在其他行动者,从而形成多智能体(Multi-agent) 环境。要求智能体可快速响应和策略选择。

几乎所有任务都发生在序贯且动态的环境中。要求智能体的"感知-思考-行动-观察"循环必须能够快速、灵活地适应持续变化的世界。

智能体的运行机制

这个循环主要包含以下几个相互关联的阶段:

  1. 感知 (Perception):这是循环的起点。智能体通过其传感器(例如,API 的监听端口、用户输入接口)接收来自环境的输入信息。这些信息,即观察 (Observation),既可以是用户的初始指令,也可以是上一步行动所导致的环境状态变化反馈。
  2. 思考 (Thought) :接收到观察信息后,智能体进入其核心决策阶段。对于 LLM 智能体而言,这通常是由大语言模型驱动的内部推理过程。如图所示,"思考"阶段可进一步细分为两个关键环节:
    • 规划 (Planning):智能体基于当前的观察和其内部记忆,更新对任务和环境的理解,并制定或调整一个行动计划。这可能涉及将复杂目标分解为一系列更具体的子任务。
    • 工具选择 (Tool Selection):根据当前计划,智能体从其可用的工具库中,选择最适合执行下一步骤的工具,并确定调用该工具所需的具体参数。
  3. 行动 (Action) :决策完成后,智能体通过其执行器(Actuators)执行具体的行动。这通常表现为调用一个选定的工具(如代码解释器、搜索引擎 API),从而对环境施加影响,意图改变环境的状态。
    行动并非循环的终点。智能体的行动会引起环境 (Environment) 的状态变化 (State Change) ,环境随即会产生一个新的观察 (Observation) 作为结果反馈。这个新的观察又会在下一轮循环中被智能体的感知系统捕获,形成一个持续的"感知-思考-行动-观察"的闭环。智能体正是通过不断重复这一循环,逐步推进任务,从初始状态向目标状态演进。

智能体的感知与行动

为了让 LLM 能够有效驱动这个循环,我们需要一套明确的交互协议 (Interaction Protocol) 来规范其与环境之间的信息交换。

两个核心部分:

  • Thought (思考):这是智能体内部决策的"快照"。它以自然语言形式阐述了智能体如何分析当前情境、回顾上一步的观察结果、进行自我反思与问题分解,并最终规划出下一步的具体行动。
  • Action (行动) :这是智能体基于思考后,决定对环境施加的具体操作,通常以函数调用的形式表示。
    例如,一个正在规划旅行的智能体可能会生成如下格式化的输出:
bash 复制代码
Thought: 用户想知道北京的天气。我需要调用天气查询工具。
Action: get_weather("北京")

这里的Action字段构成了对外部世界的指令。一个外部的解析器 (Parser) 会捕捉到这个指令,并调用相应的get_weather函数。

原始的机器可读数据(如 JSON)通常包含 LLM 无需关注的冗余信息,且格式不符合其自然语言处理的习惯。因此,感知系统的一个重要职责就是扮演传感器的角色:将这个原始输出处理并封装成一段简洁、清晰的自然语言文本,即观察。

bash 复制代码
Observation: 北京当前天气为晴,气温25摄氏度,微风。

这段Observation文本会被反馈给智能体,作为下一轮循环的主要输入信息,供其进行新一轮的Thought和Action。

智能体应用的协作模式

我们的角色正越来越多地转变为使用者与协作者。

协作模式主要分为两种:一种是作为高效工具,深度融入我们的工作流;另一种则是作为自主的协作者,与其他智能体协作完成复杂目标。

作为开发者工具的智能体

它增强而非取代开发者的角色,通过自动化处理繁琐、重复的任务,让开发者能更专注于创造性的核心工作。如:GitHubCopilot、Claude Code、Trae、Cursor等

作为自主协作者的智能体

在这种模式下,我们不再是手把手地指导 AI 完成每一步,而是将一个高层级的目标委托给它。

从助手到协作者的转变,标志着我们与 AI 的关系从"命令-执行"演变为"目标-委托"。智能体不再是被动的工具,而是主动的目标追求者。

主流方向:

  1. 单智能体自主循环
    核心是一个通用智能体通过"思考-规划-执行-反思"的闭环,不断进行自我提示和迭代,以完成一个开放式的高层级目标。
  2. 多智能体协作
    旨在通过模拟人类团队的协作模式来解决复杂问题。
    • 角色扮演式对话
      如 CAMEL 框架,通过为两个智能体(例如,"程序员"和"产品经理")设定明确的角色和沟通协议,让它们在一个结构化的对话中协同完成任务。
    • 组织化工作流
      如 MetaGPT 和 CrewAI,它们模拟一个分工明确的"虚拟团队"(如软件公司或咨询小组)。
  3. 高级控制流架构
    诸如 LangGraph 等框架,则更侧重于为智能体提供更强大的底层工程基础。它将智能体的执行过程建模为状态图(State Graph),从而能更灵活、更可靠地实现循环、分支、回溯以及人工介入等复杂流程。

Workflow 和 Agent 的差异

简单来说,Workflow 是让 AI 按部就班地执行指令,而 Agent 则是赋予 AI 自由度去自主达成目标。

Agent自主性

  1. 规划与工具调用: Agent 首先会把任务拆解为两个步骤:① 查询天气;② 基于天气推荐景点。随即,它会自主选择并调用"天气查询 API",并将"北京"作为参数传入。
  2. 推理与决策: 假设 API 返回结果为"晴朗,微风"。Agent 的 LLM 大脑会基于这个信息进行推理:"晴天适合户外活动"。接着,它会根据这个判断,在它的知识库或通过搜索引擎这个工具中,筛选出北京的户外景点,如故宫、颐和园、天坛公园等。
  3. 生成结果 : 最后,Agent 会综合信息,给出一个完整的、人性化的回答:"今天北京天气晴朗,微风,非常适合户外游玩。为您推荐前往【颐和园】,您可以在昆明湖上泛舟,欣赏美丽的皇家园林景色。"
    基于实时信息进行动态推理和决策的能力,正是 Agent 的核心价值所在。
相关推荐
GIOTTO情14 小时前
智能舆情处置系统技术方案:基于NLP与大数据的全链路风控落地
大数据·人工智能·自然语言处理
searchforAI14 小时前
Obsidian一键获取视频笔记内容,AI做知识管理+内容创作
人工智能·笔记·gpt·学习·知识图谱·markdown·知识库
霸道流氓气质14 小时前
Spring AI 工作流引擎扩展 Human-in-the-Loop 人工审批功能完整实战
java·人工智能·spring
物联网软硬件开发-轨物科技14 小时前
【行业动态】桑达尔·皮查伊谈AI:正视公众焦虑,理性看待技术变革
人工智能
kkkliaoo14 小时前
2026年AI编程Token消耗优化:从月费500到月费5的成本控制实战
人工智能·ai编程
KaMeidebaby14 小时前
卡梅德生物技术快报|糖蛋白纯化 Sevage 法工艺优化:正交与响应面法对比实操分析
人工智能·其他·算法·百度·新浪微博
暴躁小师兄数据学院14 小时前
【AI大模型应用开发工程师特训笔记】第04讲(第6章):复合数据类型
人工智能·windows·笔记·python
cvcode_study14 小时前
OpenCV(Python 版)
人工智能·python·opencv
2501_9400417414 小时前
脱离 CRUD 舒适区:硬核全栈实战项目
人工智能