强化学习方法分类：

春日见2026-05-30 10:08

强化学习的目标就是找到一个最优策略。

强化学习方法就是通过不同的思路与路径找到最优策略。

强化学习方法分类：

1. 按"是否利用环境模型"分类

分类核心：算法是否利用环境的状态转移概率 $P$ 和 奖励函数 $R$ 来学习最优策略。

有模型方法 (Model-Based)： 智能体完全了解环境的运转规律（即"游戏物理引擎"和"计分规则"是已知的）。在已知环境状态转移函数和奖励函数的情况下，算法可以通过推导下一个可能状态的价值来更新当前状态的价值。
- 典型代表： 动态规划（DP）、动态规划分为价值迭代算法与策略迭代算法。
无模型方法 (Model-Free)： 在许多实际场景中，我们无法提前得知环境的底层概率规律。智能体只能通过在环境中不断尝试（探索）、收集真实数据来学习。
- 典型代表： 蒙特卡洛方法（Monte-Carlo Methods），它通过"实战模拟"和经验采样来进行无模型的价值估计。

2. 按"状态价值的表示与存储方式"分类

当环境变得极其复杂时，记录状态价值的方式决定了算法的适用范围。

查表法 (Tabular Methods)： 适用于状态和动作空间较小、离散的简单环境。它像一个 Excel 表格一样，每一行是一个状态 $s$ ，每一列是一个动作 $a$ ，格子里的值就是动作价值 $q(s,a)$ 。
- 典型代表： 传统的动态规划、基础的蒙特卡洛方法。
函数逼近法 / 深度强化学习 (Deep Reinforcement Learning, DRL)： 当面对海量或连续的状态空间（如围棋的 $10\^{170}$ 种状态，或自动驾驶的连续像素画面）时，传统表格根本存不下。此时引入神经网络（NN/DNN/CNN）作为非线性函数逼近器，通过输入状态来输出预测价值，从而打破了"维度灾难" 。
- 典型代表： DQN（Deep Q-Network）算法、AlphaGo 。

3. 按"数据采样的策略与更新策略是否一致"分类

这个分类主要针对无模型方法，区别在于智能体能否"从历史经验或他人的经验中学习"。

同策略 (On-Policy)： 智能体必须使用当前正在优化的策略去与环境交互并收集数据。一旦策略更新，之前收集的旧数据就作废了。
- 典型代表： 基础的蒙特卡洛价值估计（要求使用当前策略采样序列来计算价值）。
离策略 (Off-Policy)： 算法允许使用历史旧策略产生的数据，来优化当前的最新策略。这种特性使得算法可以建立"记忆库"并反复利用过去的数据，大幅提升了样本利用率。
- 典型代表： 带有经验回放（Experience Replay）机制的 Q-Learning、DQN、DDPG 等算法。

上一篇：PolarBox高性能实时仿真系统

下一篇：SpecBench：软件工程中大型语言模型智能体的规范级推理评估

热门推荐

01如何新建文件夹？电脑新建文件夹的4种方法 02GitHub 镜像站点 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05AI科技热点日报 | 2026年07月01日 06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 07微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？09Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 102026 年 AI 大模型 & AI 编程工具实战全总结