技术栈
时序差分学习
香芋Yu
4 小时前
强化学习
·
时序差分学习
【强化学习教程——01_强化学习基石】第05章_时序差分学习
本章目标:理解时序差分 (TD) 学习如何结合蒙特卡洛 (MC) 和动态规划 (DP) 的优点,掌握 TD(0) 算法、n-step TD 以及 TD( λ \lambda λ) 与资格迹的概念,深入理解偏差-方差权衡。
我是有底线的