【强化学习】第一章强化学习初探

强化学习初探

强化学习的定义
强化学习的环境特点
- 动态随机过程：
- 双重随机性：
强化学习的目标
- 关键概念：
与有监督学习的根本区别
重要启示

就是笔记，网址在这动手强化学习

核心内容总结

强化学习的定义

强化学习是机器通过与环境交互来实现目标的一种计算方法，主要解决 ** 序贯决策（sequential decision making）** 任务。

基本交互模式：

智能体（agent）感知环境状态智能体做出动作决策环境根据动作产生奖励反馈环境发生状态转移智能体在下一轮感知新状态
智能体的三个关键要素
感知
智能体感知环境的当前状态
例：围棋 AI 感知棋盘情况、无人车感知道路状况
决策
根据当前状态计算最优动作的过程
策略（policy）是智能体的核心体现
例：决定落子位置、计算方向盘角度
奖励
环境产生的标量反馈信号
衡量动作好坏的即时指标
目标：最大化累积奖励期望

强化学习的环境特点

动态随机过程：

环境会随时间不断演变

状态转移由当前状态和智能体动作共同决定

数学表示：下一状态 = f ( 当前状态，智能体动作 ) 下一状态 = f (当前状态，智能体动作) 下一状态=f(当前状态，智能体动作)

双重随机性：

智能体决策动作的随机性

环境状态转移的随机性

强化学习的目标

优化目标：最大化累积奖励的期望（价值）

关键概念：

回报（return） ：多轮交互获得的累积奖励
价值（value） ：回报的期望值
占用度量（occupancy measure）：状态 - 动作对的概率分布

与有监督学习的根本区别

任务性质不同

有监督学习：单轮独立的预测任务
强化学习：多轮迭代的决策任务

数据分布不同

有监督学习：固定的数据分布
强化学习：数据分布随策略变化而变化

优化方式不同

有监督学习：优化模型输出，数据分布固定
强化学习：优化策略，改变数据分布

强化学习的独特性

核心区别

有监督学习：在固定数据分布下最小化损失期望
强化学习：通过改变策略产生最优数据分布，最大化奖励期望

学习难点

策略改变导致数据分布改变

改变过程复杂，难以用显式数学公式刻画

具有 "混沌效应"，初始设置微小变化可能导致结果巨大差异

重要启示

决策的长远影响：当前获得最大奖励的动作，长期来看不一定最优
环境的动态性：智能体需要考虑环境的演变和未来的状态变化
数据的生成性：智能体的策略决定了能观察到什么样的数据
目标的期望性：关注的是回报的期望值而非单次具体结果

【强化学习】第一章 强化学习初探