【HCIA-AI笔记（微认证3）】1、Agent基本概念

A. 监督学习 ：依赖带标注的样本数据 做训练，没有通过奖励机制迭代优化行为的设计，不符合题意。

B. 无监督学习 ：是从无标注数据里挖掘内在规律，不存在奖励引导策略优化的环节。

C. 强化学习 ：核心机制就是智能体（Agent）和环境交互，依靠奖励 / 惩罚机制 不断迭代优化行为策略，AlphaGo 正是用强化学习结合蒙特卡洛树搜索完成训练的，符合题目描述。

D. 迁移学习：是把旧任务学到的知识迁移到新任务来提升训练效率，不是依靠奖励机制优化行为的核心框架。

简单反射型智能体（A 选项）仅依靠当前感知和预设规则行动，没有内部状态与环境历史存储能力，无法处理部分可观测环境。

基于模型的反射型智能体（B 选项）内置了内部世界模型，可以保存过往的环境历史信息，以此推断环境中无法直接观测的隐藏状态，具备处理部分可观测场景的能力，和题目描述完全匹配。

基于目标的智能体（C 选项）是在模型反射的基础上增加了目标规划能力，核心特点是围绕目标做动作序列规划，不是以维护环境历史、解决部分可观测问题为核心特征。

基于效用的智能体（D 选项）在目标型的基础上引入效用函数做多目标权衡优化，侧重点是量化方案优劣、处理决策不确定性。

五层智能体是逐层叠加、功能包含的递进关系：高层智能体完整继承下层全部能力，再新增独有模块