深度强化学习（三）马尔科夫决策过程

参考文章：https://blog.csdn.net/taka_is_beauty/article/details/88356375
序贯决策问题是针对随机动态系统的不确定性按照时间顺序给出最优策略。马尔科夫决策过程是解决序贯决策问题的经典方法。

马尔科夫过程是指满足马尔科夫性的随机过程，马尔科夫过程的未来状态只与当前状态有关，与过去所有的状态都无关

马尔科夫过程可以用一个二元组（S，P）表示，其中S表示状态空间，由一组有限的状态组成；P是状态转移概率矩阵。

状态离散的马尔科夫过程被称为马尔科夫链，马尔科夫链在时间和状态上均离散。

将一个状态转移到另一个状态的概率按照顺序组成的矩阵就是状态转移矩阵。

状态转移概率矩阵的性质：

n步转移概率描述的是从第m步的状态i转移到第m+n步的状态j的条件概率

对马尔科夫过程的抽样

MRP=马尔科夫链+一个奖励函数，奖励函数是一个期望函数

马尔科夫奖励过程可以由一个四元组（S，P，R，γ）。

前面的马尔科夫链加上奖励机制后，可以获得一个奖励函数：

Horizon：同一个游戏环节或者轨迹的长度，由有限个步数决定的。
Return回报：从时间t到horizon的时间长度内，把奖励进行折扣所获得的收益。

这里有一个叠加系数γ，越往后的奖励的的折扣越多，因为我们更希望得到现有的奖励。
状态的价值：在某一个时刻t，在状态s下所期望的回报是：从这个状态开始的未来期望累积回报