人工智能现代方法 第二章2.1-2.3节 笔记

第2章:智能体 2.1--2.3节 笔记

范围:
  • 2.1 智能体和环境
  • 2.2 良好行为:理性的概念
  • 2.3 环境的本质
目标:用一套统一框架回答三件事:
  • 智能体是什么
  • 什么叫"表现好/理性"
  • 环境有哪些关键属性(决定算法/设计)

2.1 智能体和环境

2.1.1 交互闭环(核心图景)

  • 智能体(Agent):通过 **传感器(Sensors)**获取信息,通过 **执行器(Actuators)**对环境施加影响。
  • 环境(Environment) :智能体之外的一切;在设计中,我们通常只关心与感知/动作相关的那部分状态

信息流:

  • 环境 →(感知)→ 智能体 →(动作)→ 环境
  • 单次输入叫 感知(percept) ;到当前为止的历史叫 感知序列(percept sequence)

2.1.2 智能体函数 vs 智能体程序

  • 智能体函数(agent function) :抽象的映射
    f: percept sequence → action
  • 智能体程序(agent program) :在具体硬件/软件平台上实现该映射的可运行实现。
    结论:函数是"行为定义",程序是"工程实现"。

2.1.3 真空吸尘器世界(用于说明概念)

  • 用极简世界展示:位置(A/B)是否脏动作(Left/Right/Suck/NoOp)
  • 通过"感知序列→动作"的表(或规则)说明:同一个环境中,设计不同规则就得到不同智能体。

2.2 良好行为:理性的概念

2.2.1 性能度量(Performance Measure)

  • 评价"好不好"通常不看某一步是否"看起来正确",而看结果序列是否实现目标。
  • 性能度量 是对任务目标的可计算刻画;但它可能:
    • 不完整(漏掉真正关心的目标)
    • 可被钻空子(最大化指标却违背真实意图)

实践原则:

  • 尽量让性能度量对齐"真正想实现的目标",并意识到它可能一开始就是不确定/未知的(尤其面对不同用户偏好)。

2.2.2 理性(Rationality)

理性不是"永远做对",而是在当前信息与约束下做期望最优

理性取决于四类要素:

  1. 性能度量(我们想优化什么)
  2. 先验知识(对环境/规则的已知部分)
  3. 可执行动作集合(能力边界/成本约束)
  4. 到目前为止的感知序列(可获得证据)

理性智能体(rational agent)的要点定义:

  • 对任意感知序列,选择一个动作,使得在给定证据与先验知识下的期望性能最大化。

重要区分:理性强调"期望最优",不等于事后每次都成功。

2.2.3 全知、学习与自主

  • 理性 ≠ 全知(omniscience):理性不要求预知未来真实结果;只要求基于已知信息做期望最优决策。
  • 信息收集 / 探索(exploration):当关键信息未知时,先获取信息可能比立即行动更理性。
  • 学习(learn):经验能更新先验知识,从而改善后续决策。
  • 自主(autonomy):智能体越依赖自身经验学习而非设计者硬编码,就越自主;但在无经验时往往仍需合理"先验/保护机制"。

2.3 环境的本质

2.3.1 指定任务环境:PEAS 框架

设计智能体的第一步:明确任务环境四要素(PEAS):

  • P --- Performance:衡量好坏的指标(安全、效率、舒适、收益等)
  • E --- Environment:任务所处世界(道路/网络/用户/天气/其他智能体...)
  • A --- Actuators:能做什么(移动、控制、输出文本/语音...)
  • S --- Sensors:能看到什么(摄像头、雷达、GPS、日志、输入流...)

PEAS 的价值:让"需求/约束/信息"在一开始就结构化,避免只谈算法不谈任务。

2.3.2 任务环境属性(决定"该怎么设计/用什么方法")

下列维度是常用分类轴(用于选择表示、规划、学习、推理方法):

1)可观测性(Observability)
  • 完全可观测:传感器在每一步能覆盖与决策相关的完整状态
  • 部分可观测:只能看到一部分,需要记忆/信念状态(belief)等
  • 不可观测:缺少关键传感器或信息严重缺失
2)智能体数量(Agents)
  • 单智能体 vs 多智能体(可能合作、竞争或混合)
3)确定性(Determinism)
  • 确定性:下一状态由当前状态+动作完全决定
  • 非确定性 :存在不确定性
    • 若概率模型明确,可视为"随机(stochastic)";若概率不可量化,则更偏"非确定(nondeterministic)"。
4)回合式 vs 序贯式(Episodic vs Sequential)
  • 回合式:每步影响主要在当下,步骤之间近似独立
  • 序贯式:当前决策影响未来状态与长期回报(更常见、更难)
5)静态 vs 动态 vs 半动态(Static / Dynamic / Semidynamic)
  • 静态:智能体思考时环境不变
  • 动态:环境随时间演化
  • 半动态 :环境不变但评价/时间成本变化等
6)离散 vs 连续(Discrete vs Continuous)
  • 状态、动作、时间可能是离散或连续(或混合)
7)已知 vs 未知(Known vs Unknown)
  • 这是认知层面 的区分:
    • 已知环境:智能体/设计者知道环境的"规律/转移机制"
    • 未知环境:规则需通过试验/交互学习获得
  • 关键提醒:"已知/未知"与"完全/部分可观测"是不同概念
    • 规则已知仍可能部分可观测(例如隐藏信息存在)
    • 状态全显示也可能规则未知(例如新系统按钮功能未知)

  • 性能度量也可能是未知的:面向不同用户时偏好不清晰,智能体可能需要通过交互逐步获得"目标信息"。
  • 直觉上最困难的任务环境组合
    部分可观测 + 多智能体 + 非确定性 + 序贯 + 动态 + 连续 +(且规则未知)。
  • **评估通常面向"环境类(environment class)"**而非单一固定环境:
    用多次实例化(不同交通/天气/初始条件等)评估智能体在环境分布上的平均表现。

一页速记

  • Agent = Sensors + Actuators + Program,与环境闭环交互。
  • Agent function 是抽象映射,Agent program是工程实现。
  • Rational agent :在给定感知序列、先验知识、动作集合与性能度量下,选取期望性能最大的动作。
  • PEAS:P(目标) / E(世界) / A(能做什么) / S(能看到什么)。
  • 环境属性七轴:可观测性、智能体数量、确定性、回合/序贯、静态/动态、离散/连续、已知/未知(认知层面)。
相关推荐
乐观主义现代人44 分钟前
redis 源码学习笔记
redis·笔记·学习
青主创享阁44 分钟前
技术破局农业利润困局:玄晶引擎AI数字化解决方案的架构设计与落地实践
大数据·人工智能
YJlio44 分钟前
Registry Usage (RU) 学习笔记(15.5):注册表内存占用体检与 Hive 体量分析
服务器·windows·笔记·python·学习·tcp/ip·django
datamonday1 小时前
[EAI-037] π0.6* 基于RECAP方法与优势调节的自进化VLA机器人模型
人工智能·深度学习·机器人·具身智能·vla
rgc_520_zyl1 小时前
idea离线模式使用备忘录
笔记
Toky丶1 小时前
【文献阅读】Pt2-Llm: Post-Training Ternarization For Large Language Models
人工智能·语言模型·自然语言处理
梵得儿SHI1 小时前
(第七篇)Spring AI 核心技术攻坚:国内模型深度集成与国产化 AI 应用实战指南
java·人工智能·spring·springai框架·国产化it生态·主流大模型的集成方案·麒麟系统部署调优
longze_71 小时前
生成式UI与未来AI交互变革
人工智能·python·ai·ai编程·cursor·蓝湖
weixin_438077491 小时前
CS336 Assignment 4 (data): Filtering Language Modeling Data 翻译和实现
人工智能·python·语言模型·自然语言处理
合方圆~小文1 小时前
工业摄像头工作原理与核心特性
数据库·人工智能·模块测试