强化学习方法分类:

强化学习的目标就是找到一个最优策略。

强化学习方法就是通过不同的思路与路径找到最优策略。

强化学习方法分类:

1. 按"是否利用环境模型"分类

分类核心:算法是否利用环境的状态转移概率 P奖励函数 R来学习最优策略

  • 有模型方法 (Model-Based): 智能体完全了解环境的运转规律(即"游戏物理引擎"和"计分规则"是已知的)。在已知环境状态转移函数和奖励函数的情况下,算法可以通过推导下一个可能状态的价值来更新当前状态的价值 。

    • 典型代表: 动态规划(DP)、动态规划分为价值迭代算法与策略迭代算法 。
  • 无模型方法 (Model-Free): 在许多实际场景中,我们无法提前得知环境的底层概率规律 。智能体只能通过在环境中不断尝试(探索)、收集真实数据来学习 。

    • 典型代表: 蒙特卡洛方法(Monte-Carlo Methods),它通过"实战模拟"和经验采样来进行无模型的价值估计 。

2. 按"状态价值的表示与存储方式"分类

当环境变得极其复杂时,记录状态价值的方式决定了算法的适用范围。

  • 查表法 (Tabular Methods): 适用于状态和动作空间较小、离散的简单环境。它像一个 Excel 表格一样,每一行是一个状态 s,每一列是一个动作 a,格子里的值就是动作价值 q(s,a)

    • 典型代表: 传统的动态规划、基础的蒙特卡洛方法 。
  • 函数逼近法 / 深度强化学习 (Deep Reinforcement Learning, DRL): 当面对海量或连续的状态空间(如围棋的 10\^{170} 种状态,或自动驾驶的连续像素画面)时,传统表格根本存不下 。此时引入神经网络(NN/DNN/CNN)作为非线性函数逼近器,通过输入状态来输出预测价值,从而打破了"维度灾难" 。

    • 典型代表: DQN(Deep Q-Network)算法、AlphaGo 。

3. 按"数据采样的策略与更新策略是否一致"分类

这个分类主要针对无模型方法,区别在于智能体能否"从历史经验或他人的经验中学习"。

  • 同策略 (On-Policy): 智能体必须使用当前正在优化的策略去与环境交互并收集数据。一旦策略更新,之前收集的旧数据就作废了。

    • 典型代表: 基础的蒙特卡洛价值估计(要求使用当前策略采样序列来计算价值) 。
  • 离策略 (Off-Policy): 算法允许使用历史旧策略产生的数据,来优化当前的最新策略 。这种特性使得算法可以建立"记忆库"并反复利用过去的数据,大幅提升了样本利用率 。

    • 典型代表: 带有经验回放(Experience Replay)机制的 Q-Learning、DQN、DDPG 等算法 。
相关推荐
jooloo31 分钟前
Codex 间歇性 400 之谜:一条对话里,它为什么有时候用 chat/completions,有时候切到 responses?
人工智能
用户5191495848451 小时前
OpenSSL PKCS#12 PBMAC1 堆栈缓冲区溢出漏洞 (CVE-2025-11187) 分析与验证
人工智能·aigc
用户5191495848452 小时前
HP Sound Research SECOMNService 权限提升漏洞利用工具
人工智能·aigc
用户018349301692 小时前
给 AI 智能体能力包一层 BFF,前端只调一个接口
人工智能
这token有力气6 小时前
Function Calling 格式漂移
人工智能
onething3656 小时前
Spring Boot + Spring AI 从入门到实战:7天转型计划 Day 5 —— SSE 流式输出 + 打字机效果
人工智能·后端·全栈
onething3656 小时前
Spring Boot + Spring AI 从入门到实战:7天转型计划 Day 6 —— 业务完善 + 会话消息预览
人工智能·后端·全栈
IT_陈寒7 小时前
SpringBoot自动配置的坑,我爬了三天才出来
前端·人工智能·后端
甲维斯8 小时前
笑抽了!DeepSeek识图,豆包完胜了!
人工智能·deepseek
Lei活在当下16 小时前
【AI手记系列-2026/6/18】iSparto & Harness,Caveman 以及AI时代的生存指南
人工智能·llm·openai