技术栈
离线mc强化学习
中年阿甘
10 个月前
重要性采样
·
离线mc强化学习
22. 离线MC强化学习算法(1)
离线强化学习的特点是采样策略 π ′ ≠ 待评估策略 π \pi'\ne 待评估策略\pi π′=待评估策略π,这就带来一个问题: