MDP是RL的理论基础

‌**马尔可夫决策过程（Markov Decision Process, MDP）是序贯决策的数学模型，用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报** ‌。MDP得名于俄国数学家安德雷·马尔可夫，以纪念其对马尔可夫链的研究。‌

MDP基于一组交互对象，即智能体和环境进行构建，所具有的要素包括：

MDP的理论基础是马尔可夫链，因此也被视为考虑了动作的马尔可夫模型。在离散时间上建立的MDP被称为"离散时间马尔可夫决策过程"，反之则被称为"连续时间马尔可夫决策过程"。MDP存在一些变体，包括部分可观察马尔可夫决策过程、约束马尔可夫决策过程和模糊马尔可夫决策过程。

在应用方面，MDP被用于机器学习中强化学习问题的建模。通过使用动态规划、随机采样等方法，MDP可以求解使回报最大化的智能体策略，并在自动控制、推荐系统等主题中得到应用。

MDP可以用五元组表示：<S, A, P, R, γ>，其中：

‌Bellman等式‌是强化学习中的基础，其基本思想是使用迭代的思想，将状态值函数分解为即时奖励和未来状态值函数的加权和。通过Bellman等式，可以迭代计算每个状态的值函数，从而找到最优策略。