技术栈

重要性采样

中年阿甘
1 年前
重要性采样·离线mc强化学习
22. 离线MC强化学习算法(1)离线强化学习的特点是采样策略 π ′ ≠ 待评估策略 π \pi'\ne 待评估策略\pi π′=待评估策略π,这就带来一个问题: