‌马尔可夫决策过程-笔记

【详解+推导!!】马尔可夫决策过程-CSDN博客

MDP是RL的理论基础


‌**马尔可夫决策过程(Markov Decision Process, MDP)是序贯决策的数学模型,用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报** ‌。MDP得名于俄国数学家安德雷·马尔可夫,以纪念其对马尔可夫链的研究。‌

基本概念和要素

MDP基于一组交互对象,即智能体和环境进行构建,所具有的要素包括:

  • ‌**状态(States)**‌:环境的状态集合。
  • ‌**动作(Actions)**‌:智能体在每个状态下可以采取的动作集合。
  • ‌**策略(Policies)**‌:定义了智能体在给定状态下选择动作的方式。
  • ‌**奖励(Rewards)**‌:智能体执行动作后获得的即时奖励。

理论基础和应用场景

MDP的理论基础是马尔可夫链,因此也被视为考虑了动作的马尔可夫模型。在离散时间上建立的MDP被称为"离散时间马尔可夫决策过程",反之则被称为"连续时间马尔可夫决策过程"。MDP存在一些变体,包括部分可观察马尔可夫决策过程、约束马尔可夫决策过程和模糊马尔可夫决策过程。

在机器学习和强化学习中的应用

在应用方面,MDP被用于机器学习中强化学习问题的建模。通过使用动态规划、随机采样等方法,MDP可以求解使回报最大化的智能体策略,并在自动控制、推荐系统等主题中得到应用。

数学表示和计算方法

MDP可以用五元组表示:<S, A, P, R, γ>,其中:

  • S 表示状态集合。
  • A 表示动作集合。
  • P 表示状态转移概率矩阵。
  • R 表示奖励函数。
  • γ 表示折扣因子,范围在 0 到 1 之间。

Bellman等式‌是强化学习中的基础,其基本思想是使用迭代的思想,将状态值函数分解为即时奖励和未来状态值函数的加权和。通过Bellman等式,可以迭代计算每个状态的值函数,从而找到最优策略。

相关推荐
QT 小鲜肉5 小时前
【孙子兵法之上篇】001. 孙子兵法·计篇
笔记·读书·孙子兵法
星轨初途6 小时前
数据结构排序算法详解(5)——非比较函数:计数排序(鸽巢原理)及排序算法复杂度和稳定性分析
c语言·开发语言·数据结构·经验分享·笔记·算法·排序算法
QT 小鲜肉6 小时前
【孙子兵法之上篇】001. 孙子兵法·计篇深度解析与现代应用
笔记·读书·孙子兵法
love530love9 小时前
【笔记】ComfUI RIFEInterpolation 节点缺失问题(cupy CUDA 安装)解决方案
人工智能·windows·笔记·python·插件·comfyui
愚戏师9 小时前
MySQL 数据导出
数据库·笔记·mysql
摇滚侠9 小时前
2025最新 SpringCloud 教程,教程简介,笔记01
笔记·spring cloud
RickyWasYoung11 小时前
【笔记】智能汽车、电动汽车政策文件
笔记·汽车
love530love14 小时前
【保姆级教程】Windows + Podman 从零部署 Duix-Avatar 数字人项目
人工智能·windows·笔记·python·数字人·podman·duix-avatar
草莓熊Lotso15 小时前
《算法闯关指南:动态规划算法--斐波拉契数列模型》--01.第N个泰波拉契数,02.三步问题
开发语言·c++·经验分享·笔记·其他·算法·动态规划
FFF团团员9091 天前
树莓派学习笔记3:LED和Button
笔记·学习