技术栈

mdp

香芋Yu
4 小时前
强化学习·rl·mdp
【强化学习教程——01_强化学习基石】第01章_MDP马尔可夫决策过程本章目标:理解强化学习的基本框架,掌握 MDP 五元组的数学定义,区分回报与奖励,并学会使用 OpenAI Gym 风格接口定义环境。
我是有底线的