技术栈
q-learning
、达西先生
7 小时前
算法
·
rl
·
sarsa
·
q-learning
强化学习笔记——4策略迭代、值迭代、TD算法
首先梳理一下: 通过贝尔曼方程将强化学习转化为值迭代和策略迭代两种问题 求解上述两种贝尔曼方程有三种方法:DP(有模型),MC(无模型),TD(DP和MC结合) 这三种只是方法,既可以用于求值迭代也可以用于求解策略迭代