强化学习方法分类:

强化学习的目标就是找到一个最优策略。

强化学习方法就是通过不同的思路与路径找到最优策略。

强化学习方法分类:

1. 按"是否利用环境模型"分类

分类核心:算法是否利用环境的状态转移概率 P奖励函数 R来学习最优策略

  • 有模型方法 (Model-Based): 智能体完全了解环境的运转规律(即"游戏物理引擎"和"计分规则"是已知的)。在已知环境状态转移函数和奖励函数的情况下,算法可以通过推导下一个可能状态的价值来更新当前状态的价值 。

    • 典型代表: 动态规划(DP)、动态规划分为价值迭代算法与策略迭代算法 。
  • 无模型方法 (Model-Free): 在许多实际场景中,我们无法提前得知环境的底层概率规律 。智能体只能通过在环境中不断尝试(探索)、收集真实数据来学习 。

    • 典型代表: 蒙特卡洛方法(Monte-Carlo Methods),它通过"实战模拟"和经验采样来进行无模型的价值估计 。

2. 按"状态价值的表示与存储方式"分类

当环境变得极其复杂时,记录状态价值的方式决定了算法的适用范围。

  • 查表法 (Tabular Methods): 适用于状态和动作空间较小、离散的简单环境。它像一个 Excel 表格一样,每一行是一个状态 s,每一列是一个动作 a,格子里的值就是动作价值 q(s,a)

    • 典型代表: 传统的动态规划、基础的蒙特卡洛方法 。
  • 函数逼近法 / 深度强化学习 (Deep Reinforcement Learning, DRL): 当面对海量或连续的状态空间(如围棋的 10\^{170} 种状态,或自动驾驶的连续像素画面)时,传统表格根本存不下 。此时引入神经网络(NN/DNN/CNN)作为非线性函数逼近器,通过输入状态来输出预测价值,从而打破了"维度灾难" 。

    • 典型代表: DQN(Deep Q-Network)算法、AlphaGo 。

3. 按"数据采样的策略与更新策略是否一致"分类

这个分类主要针对无模型方法,区别在于智能体能否"从历史经验或他人的经验中学习"。

  • 同策略 (On-Policy): 智能体必须使用当前正在优化的策略去与环境交互并收集数据。一旦策略更新,之前收集的旧数据就作废了。

    • 典型代表: 基础的蒙特卡洛价值估计(要求使用当前策略采样序列来计算价值) 。
  • 离策略 (Off-Policy): 算法允许使用历史旧策略产生的数据,来优化当前的最新策略 。这种特性使得算法可以建立"记忆库"并反复利用过去的数据,大幅提升了样本利用率 。

    • 典型代表: 带有经验回放(Experience Replay)机制的 Q-Learning、DQN、DDPG 等算法 。
相关推荐
njsgcs1 小时前
建立装配拓扑库,新装配任务让ai用名称找装配体的子零件,然后用拓扑装配
人工智能·ai建模
搞科研的小刘选手1 小时前
【大数据方向专题研讨会】第三届大数据与数字化管理国际学术会议(ICBDDM 2026)
大数据·信息安全·数据挖掘·云计算·可视化·供应链·信息管理
Raink老师1 小时前
【AI面试临阵磨枪-84】如何看待 RAG vs 微调(Fine-tuning)?选型依据
人工智能·面试·职场和发展
lqqjuly2 小时前
低秩分解与低秩适配——从矩阵分析基础到 LoRA/QLoRA
决策树·机器学习·矩阵
ApachePulsar2 小时前
多元协议,总线归一:为何协议灵活性对 AI 智能体至关重要
人工智能
Lkstar2 小时前
万字长文拆解大模型训练:预训练→微调→RLHF,ChatGPT 是怎么炼成的
人工智能
晓风伴月2 小时前
Command、Skill、Automation、Connector、Plugin分工详解
人工智能
虾..2 小时前
大模型认识
人工智能·llm·rag
“码”力全开2 小时前
解耦流媒体与AI推理:基于Docker与GB28181/RTSP的边缘计算中台,全量源码交付如何帮集成商节省95%开发成本?
人工智能·docker·边缘计算