技术栈
蒙特卡洛方法
人工智能-钱钱
16 小时前
强化学习
·
蒙特卡洛方法
强化学习-蒙特卡洛方法
上一篇博客介绍的是model-base的方法,本篇博客开始介绍model-free的方法,model-free的核心思想是基于数据来估计出一个模型。 如何在没有模型的情况下去进行估计,有一个重要的思想:Monte Carlo estimation。下面以抛硬币的例子为大家讲解该思想。