人工智能现代方法第二章2.1-2.3节笔记

clorisqqq2026-01-08 9:27

第2章：智能体 2.1--2.3节笔记

范围：

2.1 智能体和环境
2.2 良好行为：理性的概念
2.3 环境的本质

目标：用一套统一框架回答三件事：

智能体是什么
什么叫"表现好/理性"
环境有哪些关键属性（决定算法/设计）

2.1 智能体和环境

2.1.1 交互闭环（核心图景）

智能体（Agent）：通过 **传感器（Sensors）**获取信息，通过 **执行器（Actuators）**对环境施加影响。
环境（Environment） ：智能体之外的一切；在设计中，我们通常只关心与感知/动作相关的那部分状态。

信息流：

环境 →（感知）→ 智能体 →（动作）→ 环境
单次输入叫 感知（percept） ；到当前为止的历史叫 感知序列（percept sequence）。

2.1.2 智能体函数 vs 智能体程序

智能体函数（agent function） ：抽象的映射
f: percept sequence → action
智能体程序（agent program） ：在具体硬件/软件平台上实现该映射的可运行实现。
结论：函数是"行为定义"，程序是"工程实现"。

2.1.3 真空吸尘器世界（用于说明概念）

用极简世界展示：位置（A/B） 、是否脏 、动作（Left/Right/Suck/NoOp）。
通过"感知序列→动作"的表（或规则）说明：同一个环境中，设计不同规则就得到不同智能体。

2.2 良好行为：理性的概念

2.2.1 性能度量（Performance Measure）

评价"好不好"通常不看某一步是否"看起来正确"，而看结果序列是否实现目标。
性能度量 是对任务目标的可计算刻画；但它可能：
- 不完整（漏掉真正关心的目标）
- 可被钻空子（最大化指标却违背真实意图）

实践原则：

尽量让性能度量对齐"真正想实现的目标"，并意识到它可能一开始就是不确定/未知的（尤其面对不同用户偏好）。

2.2.2 理性（Rationality）

理性不是"永远做对"，而是在当前信息与约束下做期望最优。

理性取决于四类要素：

性能度量（我们想优化什么）
先验知识（对环境/规则的已知部分）
可执行动作集合（能力边界/成本约束）
到目前为止的感知序列（可获得证据）

理性智能体（rational agent）的要点定义：

对任意感知序列，选择一个动作，使得在给定证据与先验知识下的期望性能最大化。

重要区分：理性强调"期望最优"，不等于事后每次都成功。

2.2.3 全知、学习与自主

理性 ≠ 全知（omniscience）：理性不要求预知未来真实结果；只要求基于已知信息做期望最优决策。
信息收集 / 探索（exploration）：当关键信息未知时，先获取信息可能比立即行动更理性。
学习（learn）：经验能更新先验知识，从而改善后续决策。
自主（autonomy）：智能体越依赖自身经验学习而非设计者硬编码，就越自主；但在无经验时往往仍需合理"先验/保护机制"。

2.3 环境的本质

2.3.1 指定任务环境：PEAS 框架

设计智能体的第一步：明确任务环境四要素（PEAS）：

P --- Performance：衡量好坏的指标（安全、效率、舒适、收益等）
E --- Environment：任务所处世界（道路/网络/用户/天气/其他智能体...）
A --- Actuators：能做什么（移动、控制、输出文本/语音...）
S --- Sensors：能看到什么（摄像头、雷达、GPS、日志、输入流...）

PEAS 的价值：让"需求/约束/信息"在一开始就结构化，避免只谈算法不谈任务。

2.3.2 任务环境属性（决定"该怎么设计/用什么方法"）

下列维度是常用分类轴（用于选择表示、规划、学习、推理方法）：

1）可观测性（Observability）

完全可观测：传感器在每一步能覆盖与决策相关的完整状态
部分可观测：只能看到一部分，需要记忆/信念状态（belief）等
不可观测：缺少关键传感器或信息严重缺失

2）智能体数量（Agents）

单智能体 vs 多智能体（可能合作、竞争或混合）

3）确定性（Determinism）

确定性：下一状态由当前状态+动作完全决定
非确定性 ：存在不确定性
- 若概率模型明确，可视为"随机（stochastic）"；若概率不可量化，则更偏"非确定（nondeterministic）"。

4）回合式 vs 序贯式（Episodic vs Sequential）

回合式：每步影响主要在当下，步骤之间近似独立
序贯式：当前决策影响未来状态与长期回报（更常见、更难）

5）静态 vs 动态 vs 半动态（Static / Dynamic / Semidynamic）

静态：智能体思考时环境不变
动态：环境随时间演化
半动态 ：环境不变但评价/时间成本变化等

6）离散 vs 连续（Discrete vs Continuous）

状态、动作、时间可能是离散或连续（或混合）

7）已知 vs 未知（Known vs Unknown）

这是认知层面 的区分：
- 已知环境：智能体/设计者知道环境的"规律/转移机制"
- 未知环境：规则需通过试验/交互学习获得
关键提醒："已知/未知"与"完全/部分可观测"是不同概念 。
- 规则已知仍可能部分可观测（例如隐藏信息存在）
- 状态全显示也可能规则未知（例如新系统按钮功能未知）

性能度量也可能是未知的：面向不同用户时偏好不清晰，智能体可能需要通过交互逐步获得"目标信息"。
直觉上最困难的任务环境组合 ：
部分可观测 + 多智能体 + 非确定性 + 序贯 + 动态 + 连续 +（且规则未知）。
**评估通常面向"环境类（environment class）"**而非单一固定环境：
用多次实例化（不同交通/天气/初始条件等）评估智能体在环境分布上的平均表现。

一页速记

Agent = Sensors + Actuators + Program，与环境闭环交互。
Agent function 是抽象映射，Agent program是工程实现。
Rational agent ：在给定感知序列、先验知识、动作集合与性能度量下，选取期望性能最大的动作。
PEAS：P(目标) / E(世界) / A(能做什么) / S(能看到什么)。
环境属性七轴：可观测性、智能体数量、确定性、回合/序贯、静态/动态、离散/连续、已知/未知（认知层面）。

上一篇：sed替换文字和vim里替换文字

下一篇：MODIS（MCD19A2）中国2000-2024年度平均气溶胶光学深度数据集

热门推荐

01GitHub 镜像站点 02Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 03OpenClaw Chrome扩展使用教程 - 浏览器中继控制 04Linux下V2Ray安装配置指南 05UV安装并设置国内源 06openclaw配置教程（linux+局域网ollama）07使用 1panel面板部署 php网站 08从零搭建一个 PHP 登录注册系统（含完整源码）09Vue-skills的中文文档 10让 Trae IDE 智能体 “读懂”文档 Excel+PDF+DOCX ：mcp-documents-reader 工具使用指南