技术栈
mdp
七夜zippoe
18 天前
python
·
openai
·
超参数调优
·
q-learning
·
mdp
强化学习实战指南:从Q-Learning到PPO的工业级应用
目录1. 🎯 开篇:为什么强化学习是AI皇冠上的明珠?2. 🧮 数学基础:马尔可夫决策过程(MDP)的精髓
香芋Yu
21 天前
强化学习
·
rl
·
mdp
【强化学习教程——01_强化学习基石】第01章_MDP马尔可夫决策过程
本章目标:理解强化学习的基本框架,掌握 MDP 五元组的数学定义,区分回报与奖励,并学会使用 OpenAI Gym 风格接口定义环境。
我是有底线的