蒙特卡罗算法 - 蒙特卡罗算法技术,学习,经验文章

Lins号丹

2 年前

强化学习（四）基于蒙特卡罗算法 Monte-Calo 的求解在《强化学习（三）基于动态规划 Dynamic Programming 的求解方法》的文末中提到，利用动态规划迭代地求解强化学预测和控制问题，当待更新估计价值的状态的后续状态过多时，每次迭代所消耗的计算资源将指数级增长直至动态规划不再适用。而且，运用动态规划还有一个重要前提是，环境的状态转移模型 P P P （状态转移概率）和奖励函数都是确定已知的，即解决的是模型依赖（Model-Based RL）的强化学习问题，对于模型无关（Model-Free RL）的问题则不适用。而本文将介绍的蒙特卡罗方法（Mon