【强化学习】05周博磊强化学习纲要学习笔记——第三课上今日课程提纲:今天是强化学习纲要课程的第三课。我将给大家介绍model free prediction and control。就是在没有模型的条件下,怎么进行预测跟控制。上一次课我给大家介绍了MDP,然后给定一个policy怎么去衡量一个policy的价值。然后也介绍了两种常见的MDP控制的算法,就policy iteration以及value iteration。 这里有一个很重要的不同是,我们是不是已知MDP,因为知不知道这个MDP会对我们选择算法有非常重要的影响。因为在现实生活中,大部分的MDP其