‌马尔可夫决策过程-笔记

【详解+推导!!】马尔可夫决策过程-CSDN博客

MDP是RL的理论基础


‌**马尔可夫决策过程(Markov Decision Process, MDP)是序贯决策的数学模型,用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报** ‌。MDP得名于俄国数学家安德雷·马尔可夫,以纪念其对马尔可夫链的研究。‌

基本概念和要素

MDP基于一组交互对象,即智能体和环境进行构建,所具有的要素包括:

  • ‌**状态(States)**‌:环境的状态集合。
  • ‌**动作(Actions)**‌:智能体在每个状态下可以采取的动作集合。
  • ‌**策略(Policies)**‌:定义了智能体在给定状态下选择动作的方式。
  • ‌**奖励(Rewards)**‌:智能体执行动作后获得的即时奖励。

理论基础和应用场景

MDP的理论基础是马尔可夫链,因此也被视为考虑了动作的马尔可夫模型。在离散时间上建立的MDP被称为"离散时间马尔可夫决策过程",反之则被称为"连续时间马尔可夫决策过程"。MDP存在一些变体,包括部分可观察马尔可夫决策过程、约束马尔可夫决策过程和模糊马尔可夫决策过程。

在机器学习和强化学习中的应用

在应用方面,MDP被用于机器学习中强化学习问题的建模。通过使用动态规划、随机采样等方法,MDP可以求解使回报最大化的智能体策略,并在自动控制、推荐系统等主题中得到应用。

数学表示和计算方法

MDP可以用五元组表示:<S, A, P, R, γ>,其中:

  • S 表示状态集合。
  • A 表示动作集合。
  • P 表示状态转移概率矩阵。
  • R 表示奖励函数。
  • γ 表示折扣因子,范围在 0 到 1 之间。

Bellman等式‌是强化学习中的基础,其基本思想是使用迭代的思想,将状态值函数分解为即时奖励和未来状态值函数的加权和。通过Bellman等式,可以迭代计算每个状态的值函数,从而找到最优策略。

相关推荐
RainCity4 天前
Java Swing 自定义组件库分享(十二)
java·笔记·后端
LinXunFeng12 天前
Obsidian - 使用 Share Note 分享笔记并自部署
前端·笔记·github
闪闪发亮的小星星16 天前
高斯光以及高斯光公式解释
笔记
cqbzcsq16 天前
CellFlow虚拟细胞论文阅读
论文阅读·人工智能·笔记·学习·生物信息
阿米亚波16 天前
【Windows】QEMU 启动 openEuler aarch64/arm64 架构系统 + 离线软件源
linux·windows·经验分享·笔记·架构·arm
自传.16 天前
尚硅谷 Vibe Coding|第三章(1) Claude Code深度使用与进阶技巧 学习笔记
笔记·学习·尚硅谷·vibecoding
.千余16 天前
【C++】模板进阶全解:非类型参数|全特化|偏特化|分离编译完全指南
开发语言·c++·笔记·学习·其他
自传.16 天前
尚硅谷 Vibe Coding|第二章 AI编程工具生态 学习笔记
笔记·学习·ai编程·尚硅谷·vibe coding
秋波。未央16 天前
Java Agent 开发 · Day 1 学习笔记(含作业完整标准答案)
java·笔记·学习
中屹指纹浏览器16 天前
2026指纹浏览器字体指纹、字体渲染偏差检测与全维度虚拟字体池搭建方案
经验分享·笔记