【Datawhale组队学习202602】Hello-Agents task01 初识智能体

系列文章目录

文章目录

系列文章目录
前言
一、初识智能体
- [1.1 了解智能体](#1.1 了解智能体)
- - [1.1.1 传统视角下的智能体](#1.1.1 传统视角下的智能体)
  - [1.1.2 大语言模型驱动的新范式 vs 传统智能体](#1.1.2 大语言模型驱动的新范式 vs 传统智能体)
  - [1.1.3 智能体的类型](#1.1.3 智能体的类型)
  - - [1.1.3.1 基于内部决策架构的分类](#1.1.3.1 基于内部决策架构的分类)
    - [1.1.3.2 基于时间与反应性的分类](#1.1.3.2 基于时间与反应性的分类)
    - - [反应式智能体 Reactive Agent](#反应式智能体 Reactive Agent)
        
        [规划式智能体 Deliberative Agents](#规划式智能体 Deliberative Agents)
        
        [混合式智能体 Hybrid Agents](#混合式智能体 Hybrid Agents)
    - [1.1.3.3 基于知识表示的分类](#1.1.3.3 基于知识表示的分类)
二、智能体的运行原理
- - [1.2.1 任务环境](#1.2.1 任务环境)
  - [1.2.2 运行机制](#1.2.2 运行机制)
四、智能体应用地协作模式
- [4.1 作为开发者工具的智能体](#4.1 作为开发者工具的智能体)
- [4.2 作为自主协作者的智能体](#4.2 作为自主协作者的智能体)
- [4.3 Workflow 和 Agent 的差异](#4.3 Workflow 和 Agent 的差异)
习题
总结

前言

Datawhale教程地址 - Hello Agents

一、初识智能体

1.1 了解智能体

智能体 Agent，任何能够通过传感器 sensors 感知其所处环境 environment ，并自主通过执行器 actuators 采取行动 action以达成特定目标的实体。

真正赋予智能体"智能"的，是其自主性 autonomy。它能够基于其感知和内部状态进行独立决策，以达成其设计目标。

1.1.1 传统视角下的智能体

人工智能的先驱们已经对"智能体"这一概念进行了数十年的探索与构建。

起点是反射智能体 Simple Reflex Agent:，结构最简单，决策核心由工程师明确设计的"条件-动作"规则构成。
然后发展出 基于模型的反射智能体 Model-Based Reflex Agent ，研究者们引入了状态的概念，这类智能体拥有一个内部的 世界模型 World Model，用于追踪和理解环境中那些无法呗直接感知的方面。
再后来发展了 基于目标的智能体 Goal-Based Agent ，智能体需要有明确的目标。与前两者不同，它的行为不再是被动地对环境做出反应，二是主动地、有预见性选择能够导向某个特定未来状态地行动。
更进一步基于效用地智能体 Utility-Based Agent 随之出现，现实世界目标往往不是单一的 ，当多个目标需要权衡时，。它为每一个可能地世界状态都赋予一个效用值 ，代表了满意度的高低。智能体的目标变成了最大化期望效用。
以上所有 ，还都依赖于人类设计师的先验知识。而学习型智能体 Learning Agent 的核心思想是智能体通过与环境的互动自主学习 ，强化学习 是实现这一思想最具代表性的路径。

一个学习型智能体包含：
- 一个性能元件，即前面各类智能体；
- 一个学习元件，通过观察性能元件再环境中的行动所带来的结果来不断修正性能元件的有效策略。

1.1.2 大语言模型驱动的新范式 vs 传统智能体

1.1.3 智能体的类型

1.1.3.1 基于内部决策架构的分类

这个视角在《Artificial Intelligence: A Modern Approach》中系统性地提出。
从简单的反应式智能体 ，到引入模型的模型式智能体 ，再到前瞻性的基于目标和基于效用的智能体。

1.1.3.2 基于时间与反应性的分类

这个视角关注智能体是在接到信息后立即行动，还是会经过深思熟虑的规划再行动。
揭示了智能体设计中的一个核心权衡：追求速度的反应性 reactivity 和 追求最优解的规划性 deliberation 之间的平衡。

反应式智能体 Reactive Agent

这类智能体对环境刺激做出近乎即时的响应，决策延迟极低。它们通常遵循从感知到行动的直接映射，不进行或只进行极少的未来规划。
上文的简单反应式 和基于模型的智能体都属于此类别。

规划式智能体 Deliberative Agents

规划式（或称审议式）智能体在行动前会进行复杂的思考和规划。它们不会立即对感知做出反应，而是会先利用其内部的世界模型，系统地探索未来的各种可能性，评估不同行动序列的后果，以期找到一条能够达成目标的最佳路径。
基于目标 和基于效用的智能体是典型的规划式智能体。

混合式智能体 Hybrid Agents

混合式智能体应运而生，它旨在结合两者的优点，实现反应与规划的平衡。
一种经典的混合架构是分层设计：底层是一个快速的反应模块，处理紧急情况和基本动作；高层则是一个审慎的规划模块，负责制定长远目标。
而现代的 LLM 智能体，则展现了一种更灵活的混合模式。它们通常在一个"思考-行动-观察"的循环中运作，巧妙地将两种模式融为一体：
- 规划(Reasoning) ：在"思考"阶段，LLM 分析当前状况，规划出下一步的合理行动。这是一个审议过程。
- 反应(Acting & Observing) ：在"行动"和"观察"阶段，智能体与外部工具或环境交互，并立即获得反馈。这是一个反应过程。

1.1.3.3 基于知识表示的分类

这个视角探究智能体用以决策的知识，究竟是以何种形式存在于其思想之中。

符号主义 AI（Symbolic AI）

常被称为 传统人工智能，其核心信念是：智能源于对符号的逻辑操作。这里的符号是人类可读的实体（如词语、概念），操作则遵循严格的逻辑规则。
其主要优势在于透明和可解释。

亚符号主义 AI（Sub-symbolic AI）

或称 连接主义。在这里，知识并非显式的规则，而是内隐地分布在一个由大量神经元组成的复杂网络中，是从海量数据中学习到的统计模式。- 神经网络和深度学习是其代表。
- 亚符号主义系统通常被视为一个黑箱（Black Box）。

神经符号主义 AI（Neuro-Symbolic AI）

长久以来，符号主义和亚符号主义这两大阵营如同两条平行线，各自发展。为克服上述两种范式的局限，一种"大和解"的思想开始兴起，这就是神经符号主义 AI，也称神经符号混合主义。
它的目标，是融合两大范式的优点，创造出一个既能像神经网络一样从数据中学习，又能像符号系统一样进行逻辑推理的混合智能体。
它试图弥合感知与认知、直觉与理性之间的鸿沟。
诺贝尔经济学奖得主丹尼尔·卡尼曼（Daniel Kahneman）在其著作《思考，快与慢》（Thinking, Fast and Slow）中提出的双系统理论，为我们理解神经符号主义提供了一个绝佳的类比：
- 系统 1是缓慢、有条理、基于逻辑的审慎思维，恰如符号主义 AI 的推理过程。
- 系统 2是快速、凭直觉、并行的思维模式，类似于亚符号主义 AI 强大的模式识别能力

二、智能体的运行原理

1.2.1 任务环境

要理解智能体的运作，必须先理解它所处的任务环境。

在人工智能领域，通常使用PEAS 模型 来精确描述一个任务环境，包括：
- Performance 性能度量
- Environment 环境
- Actuators 执行器
- Sensors 传感器
以智能旅行助手的PEAS为例：

![[Pasted image 20250929104735.png]]
实践中，智能体所处的数字环境展现出若干复杂特性，会直接影响智能体的设计

1.2.2 运行机制

这个核心机制被称为 智能体循环 Agent Loop，即一个持续的循环与环境的交互。

感知 Perception ：循环的起点 ，智能体借助传感器来接收来自环境的输入信息，即观察 Observation ；这既可以是用户的初始指令 ，也可以是上一步行动所导致的环境状态变化反馈。
思考 Thought ：这通常是由大模型 驱动的内部推理过程，可细分为两个关键环节：
- 规划 Planning：智能体基于当前的观察和其内部记忆，更新对任务和环境的理解，并制定或调整一个行动计划；这涉及到将复杂目标分解为一系列更具体地子任务；
- 工具选择 Tool Selection：根据当前计划，智能体从其可用地工具库中，选择最适合执行下一步骤的工具，并确定调用该工具所需的具体参数；
行动 Action ：决策完成后，智能体通过其执行器 Actuators 执行具体的行动，这通常表现为调用一个选定的工具。

四、智能体应用地协作模式

4.1 作为开发者工具的智能体

实际上就是AI IDE，提升开发效率，本质还是增强开发者的能力。
典型的有：Trae、Claude Code、Copilot、Cursor

4.2 作为自主协作者的智能体

与作为工具辅助人类不同，第二种交互模式将智能体的自动化程度提升到了一个全新的层次，自主协作者。
当前，实现这种自主协作的思路百花齐放，涌现了大量优秀的框架和产品，从早期的 BabyAGI、AutoGPT，到如今更为成熟的 CrewAI、AutoGen、MetaGPT、LangGraph 等优秀框架，共同推动着这一领域的高速发展。大致可以归纳为以下几个主流方向：

单智能体自主循环：早期的典型范式，如 AgentGPT 。其核心是一个通用智能体通过"思考-规划-执行-反思"的闭环，不断进行自我提示和迭代，以完成一个开放式的高层级目标。
多智能体协作：当前最主流的探索方向，旨在通过模拟人类团队的协作模式来解决复杂问题。

它又可细分为不同模式：
- 角色扮演式对话：如 CAMEL 框架，通过为两个智能体（例如，"程序员"和"产品经理"）设定明确的角色和沟通协议，让它们在一个结构化的对话中协同完成任务。
- 组织化工作流：如 MetaGPT 和 CrewAI，它们模拟一个分工明确的"虚拟团队"（如软件公司或咨询小组）。每个智能体都有预设的职责和工作流程（SOP），通过层级化或顺序化的方式协作，产出高质量的复杂成果（如完整的代码库或研究报告）。AutoGen 和 AgentScope 则提供了更灵活的对话模式，允许开发者自定义智能体间的复杂交互网络。

高级控制流架构：诸如 LangGraph 等框架，则更侧重于为智能体提供更强大的底层工程基础。它将智能体的执行过程建模为状态图（State Graph），从而能更灵活、更可靠地实现循环、分支、回溯以及人工介入等复杂流程。

4.3 Workflow 和 Agent 的差异

Workflow 是让 AI 按部就班地执行指令，而 Agent 则是赋予 AI 自由度去自主达成目标。

工作流是一种传统的自动化范式，其核心是对一系列任务或步骤进行预先定义的、结构化的编排。它本质上是一个精确的、静态的流程图，规定了在何种条件下、以何种顺序执行哪些操作。一个典型的案例：某企业的费用报销审批流程。员工提交报销单（触发）-> 如果金额小于 500 元，直接由部门经理审批 -> 如果金额大于 500 元，先由部门经理审批，再流转至财务总监审批 -> 审批通过后，通知财务部打款。整个过程的每一步、每一个判断条件都被精确地预先设定。
与工作流不同，基于大型语言模型的智能体是一个具备自主性的、以目标为导向的系统。它不仅仅是执行预设指令，而是能够在一定程度上理解环境、进行推理、制定计划，并动态地采取行动以达成最终目标。LLM 在其中扮演着"大脑"的角色。

习题

请分析以下四个 case 中的主体是否属于智能体，如果是，那么属于哪种类型的智能体（可以从多个分类维度进行分析），并说明理由：
- case A：一台符合冯·诺依曼结构的超级计算机，拥有高达每秒 2EFlop 的峰值算力
- case B：特斯拉自动驾驶系统在高速公路上行驶时，突然检测到前方有障碍物，需要在毫秒级做出刹车或变道决策
- case C：AlphaGo在与人类棋手对弈时，需要评估当前局面并规划未来数十步的最优策略
- case D：ChatGPT 扮演的智能客服在处理用户投诉时，需要查询订单信息、分析问题原因、提供解决方案并安抚用户情绪

答：

Case A：不是，只是一台执行任务的计算设备。
Case B：是，能在实际环境中实时、动态地感知、决策并行动。
Case C：是，能在封闭环境中，经过长期规划、评估、自主决策以实现最优目标。
Case D：是，能在交互式对话环境中，理解目标、调用信息并自主生成解决方案。

假设你需要为一个"智能健身教练"设计任务环境。这个智能体能够：
- 通过可穿戴设备监测用户的心率、运动强度等生理数据
- 根据用户的健身目标（减脂/增肌/提升耐力）动态调整训练计划
- 在用户运动过程中提供实时语音指导和动作纠正
- 评估训练效果并给出饮食建议

请使用 PEAS 模型完整描述这个智能体的任务环境，并分析该环境具有哪些特性（如部分可观察、随机性、动态性等）。

答：

Perfoermance：评估用户的状态，评估训练的效果
Environment：实际的物理世界，动态实时的环境
Actuators：展示界面或屏幕，向用户展示各项建议和结果
Sensors：智能体感知传感器，能够24小时监测用户的心率、运动强度、睡眠，用户主动录入的身体情况，用户拍摄到的餐食，摄像头感知的用户运动状态，输入和输出语音交互。

某电商公司正在考虑两种方案来处理售后退款申请：
- 方案 A（Workflow）：设计一套固定流程，例如：
  - A.1 对于一般商品且在 7 天之内，金额 < 100RMB 自动通过；100-500RMB 由客服审核；>500RMB 需主管审批；而特殊商品（如定制品）一律拒绝退款
  - A.2 对于超过 7 天的商品，无论金额，只能由客服审核或主管审批；
- 方案 B（Agent）：搭建一个智能体系统，让它理解退款政策、分析用户历史行为、评估商品状况，并自主决策是否批准退款
- 请分析：
  - 这两种方案各自的优缺点是什么？
  - 在什么情况下 Workflow 更合适？什么情况下 Agent 更有优势？如果你是该电商公司的负责人，你更倾向于采用哪种方案？
  - 是否存在一个方案 C，能够结合两种方案，达到扬长避短的效果？

答：

两个方案中，方案A 属于一套规定动作的工作流，而方案 B 是一个智能体的形式，是一项前沿的科技，会是一个研发项目，但在建设中因为没有先例没有预知所需的人力、财力和时间成本

在 1.3 节的智能旅行助手基础上，请思考如何添加以下功能（可以只描述设计思路，也可以进一步尝试代码实现）：

提示：思考如何修改 Thought-Action-Observation 循环来实现这些功能。

添加一个"记忆"功能，让智能体记住用户的偏好（如喜欢历史文化景点、预算范围等）

当推荐的景点门票已售罄时，智能体能够自动推荐备选方案

如果用户连续拒绝了 3 个推荐，智能体能够反思并调整推荐策略

卡尼曼的"系统 1"（快速直觉）和"系统 2"（慢速推理）理论[2]为神经符号主义 AI 提供了很好的类比。请首先构思一个具体的智能体的落地应用场景，然后说明场景中的：

提示：医疗诊断助手、法律咨询机器人、金融风控系统等都是常见的应用场景

哪些任务应该由"系统 1"处理？

哪些任务应该由"系统 2"处理？

这两个系统如何协同工作以达成最终目标？

尽管大语言模型驱动的智能体系统展现出了强大的能力，但它们仍然存在诸多局限。请分析以下问题：
- 为什么智能体或智能体系统有时会产生"幻觉"（生成看似合理但实际错误的信息）？
- 在 1.3 节的案例中，我们设置了最大循环次数为 5 次。如果没有这个限制，智能体可能会陷入什么问题？
- 如何评估一个智能体的"智能"程度？仅使用准确率指标是否足够？

总结

明确了什么是智能体，给出了智能体的核心特征/功能，学习到了智能体的分类，以及智能体未来的发展方向。
揭秘了智能体的工作原理，深入讨论了智能体与环境交互的运行机制。