第2章:智能体 2.1--2.3节 笔记
范围:
- 2.1 智能体和环境
- 2.2 良好行为:理性的概念
- 2.3 环境的本质
目标:用一套统一框架回答三件事:
- 智能体是什么
- 什么叫"表现好/理性"
- 环境有哪些关键属性(决定算法/设计)
2.1 智能体和环境
2.1.1 交互闭环(核心图景)
- 智能体(Agent):通过 **传感器(Sensors)**获取信息,通过 **执行器(Actuators)**对环境施加影响。
- 环境(Environment) :智能体之外的一切;在设计中,我们通常只关心与感知/动作相关的那部分状态。
信息流:
- 环境 →(感知)→ 智能体 →(动作)→ 环境
- 单次输入叫 感知(percept) ;到当前为止的历史叫 感知序列(percept sequence)。
2.1.2 智能体函数 vs 智能体程序
- 智能体函数(agent function) :抽象的映射
f: percept sequence → action - 智能体程序(agent program) :在具体硬件/软件平台上实现该映射的可运行实现。
结论:函数是"行为定义",程序是"工程实现"。
2.1.3 真空吸尘器世界(用于说明概念)
- 用极简世界展示:位置(A/B) 、是否脏 、动作(Left/Right/Suck/NoOp)。
- 通过"感知序列→动作"的表(或规则)说明:同一个环境中,设计不同规则就得到不同智能体。
2.2 良好行为:理性的概念
2.2.1 性能度量(Performance Measure)
- 评价"好不好"通常不看某一步是否"看起来正确",而看结果序列是否实现目标。
- 性能度量 是对任务目标的可计算刻画;但它可能:
- 不完整(漏掉真正关心的目标)
- 可被钻空子(最大化指标却违背真实意图)
实践原则:
- 尽量让性能度量对齐"真正想实现的目标",并意识到它可能一开始就是不确定/未知的(尤其面对不同用户偏好)。
2.2.2 理性(Rationality)
理性不是"永远做对",而是在当前信息与约束下做期望最优。
理性取决于四类要素:
- 性能度量(我们想优化什么)
- 先验知识(对环境/规则的已知部分)
- 可执行动作集合(能力边界/成本约束)
- 到目前为止的感知序列(可获得证据)
理性智能体(rational agent)的要点定义:
- 对任意感知序列,选择一个动作,使得在给定证据与先验知识下的期望性能最大化。
重要区分:理性强调"期望最优",不等于事后每次都成功。
2.2.3 全知、学习与自主
- 理性 ≠ 全知(omniscience):理性不要求预知未来真实结果;只要求基于已知信息做期望最优决策。
- 信息收集 / 探索(exploration):当关键信息未知时,先获取信息可能比立即行动更理性。
- 学习(learn):经验能更新先验知识,从而改善后续决策。
- 自主(autonomy):智能体越依赖自身经验学习而非设计者硬编码,就越自主;但在无经验时往往仍需合理"先验/保护机制"。
2.3 环境的本质
2.3.1 指定任务环境:PEAS 框架
设计智能体的第一步:明确任务环境四要素(PEAS):
- P --- Performance:衡量好坏的指标(安全、效率、舒适、收益等)
- E --- Environment:任务所处世界(道路/网络/用户/天气/其他智能体...)
- A --- Actuators:能做什么(移动、控制、输出文本/语音...)
- S --- Sensors:能看到什么(摄像头、雷达、GPS、日志、输入流...)
PEAS 的价值:让"需求/约束/信息"在一开始就结构化,避免只谈算法不谈任务。
2.3.2 任务环境属性(决定"该怎么设计/用什么方法")
下列维度是常用分类轴(用于选择表示、规划、学习、推理方法):
1)可观测性(Observability)
- 完全可观测:传感器在每一步能覆盖与决策相关的完整状态
- 部分可观测:只能看到一部分,需要记忆/信念状态(belief)等
- 不可观测:缺少关键传感器或信息严重缺失
2)智能体数量(Agents)
- 单智能体 vs 多智能体(可能合作、竞争或混合)
3)确定性(Determinism)
- 确定性:下一状态由当前状态+动作完全决定
- 非确定性 :存在不确定性
- 若概率模型明确,可视为"随机(stochastic)";若概率不可量化,则更偏"非确定(nondeterministic)"。
4)回合式 vs 序贯式(Episodic vs Sequential)
- 回合式:每步影响主要在当下,步骤之间近似独立
- 序贯式:当前决策影响未来状态与长期回报(更常见、更难)
5)静态 vs 动态 vs 半动态(Static / Dynamic / Semidynamic)
- 静态:智能体思考时环境不变
- 动态:环境随时间演化
- 半动态 :环境不变但评价/时间成本变化等
6)离散 vs 连续(Discrete vs Continuous)
- 状态、动作、时间可能是离散或连续(或混合)
7)已知 vs 未知(Known vs Unknown)
- 这是认知层面 的区分:
- 已知环境:智能体/设计者知道环境的"规律/转移机制"
- 未知环境:规则需通过试验/交互学习获得
- 关键提醒:"已知/未知"与"完全/部分可观测"是不同概念 。
- 规则已知仍可能部分可观测(例如隐藏信息存在)
- 状态全显示也可能规则未知(例如新系统按钮功能未知)
- 性能度量也可能是未知的:面向不同用户时偏好不清晰,智能体可能需要通过交互逐步获得"目标信息"。
- 直觉上最困难的任务环境组合 :
部分可观测 + 多智能体 + 非确定性 + 序贯 + 动态 + 连续 +(且规则未知)。 - **评估通常面向"环境类(environment class)"**而非单一固定环境:
用多次实例化(不同交通/天气/初始条件等)评估智能体在环境分布上的平均表现。
一页速记
- Agent = Sensors + Actuators + Program,与环境闭环交互。
- Agent function 是抽象映射,Agent program是工程实现。
- Rational agent :在给定感知序列、先验知识、动作集合与性能度量下,选取期望性能最大的动作。
- PEAS:P(目标) / E(世界) / A(能做什么) / S(能看到什么)。
- 环境属性七轴:可观测性、智能体数量、确定性、回合/序贯、静态/动态、离散/连续、已知/未知(认知层面)。