强化学习的目标就是找到一个最优策略。
强化学习方法就是通过不同的思路与路径找到最优策略。
强化学习方法分类:
1. 按"是否利用环境模型"分类
分类核心:算法是否利用环境的状态转移概率 P 和 奖励函数 R来学习最优策略。
-
有模型方法 (Model-Based): 智能体完全了解环境的运转规律(即"游戏物理引擎"和"计分规则"是已知的)。在已知环境状态转移函数和奖励函数的情况下,算法可以通过推导下一个可能状态的价值来更新当前状态的价值 。
- 典型代表: 动态规划(DP)、动态规划分为价值迭代算法与策略迭代算法 。
-
无模型方法 (Model-Free): 在许多实际场景中,我们无法提前得知环境的底层概率规律 。智能体只能通过在环境中不断尝试(探索)、收集真实数据来学习 。
- 典型代表: 蒙特卡洛方法(Monte-Carlo Methods),它通过"实战模拟"和经验采样来进行无模型的价值估计 。
2. 按"状态价值的表示与存储方式"分类
当环境变得极其复杂时,记录状态价值的方式决定了算法的适用范围。
-
查表法 (Tabular Methods): 适用于状态和动作空间较小、离散的简单环境。它像一个 Excel 表格一样,每一行是一个状态 s,每一列是一个动作 a,格子里的值就是动作价值 q(s,a) 。
- 典型代表: 传统的动态规划、基础的蒙特卡洛方法 。
-
函数逼近法 / 深度强化学习 (Deep Reinforcement Learning, DRL): 当面对海量或连续的状态空间(如围棋的 10\^{170} 种状态,或自动驾驶的连续像素画面)时,传统表格根本存不下 。此时引入神经网络(NN/DNN/CNN)作为非线性函数逼近器,通过输入状态来输出预测价值,从而打破了"维度灾难" 。
- 典型代表: DQN(Deep Q-Network)算法、AlphaGo 。
3. 按"数据采样的策略与更新策略是否一致"分类
这个分类主要针对无模型方法,区别在于智能体能否"从历史经验或他人的经验中学习"。
-
同策略 (On-Policy): 智能体必须使用当前正在优化的策略去与环境交互并收集数据。一旦策略更新,之前收集的旧数据就作废了。
- 典型代表: 基础的蒙特卡洛价值估计(要求使用当前策略采样序列来计算价值) 。
-
离策略 (Off-Policy): 算法允许使用历史旧策略产生的数据,来优化当前的最新策略 。这种特性使得算法可以建立"记忆库"并反复利用过去的数据,大幅提升了样本利用率 。
- 典型代表: 带有经验回放(Experience Replay)机制的 Q-Learning、DQN、DDPG 等算法 。