技术栈
马尔可夫奖励过程
晓shuo
6 个月前
人工智能
·
强化学习
·
马尔可夫奖励过程
强化学习——马尔可夫奖励过程的理解
在马尔可夫过程的基础上加入奖励函数 r r r 和折扣因子 γ \gamma γ,就可以得到马尔可夫奖励过程(Markov reward process)。一个马尔可夫奖励过程由 < S , P , r , γ > <S,P,r,\gamma > <S,P,r,γ> 构成,各个组成元素的含义如下: