强化学习路径教程

好久没有发文章了,最近都在学强化学习了!接下来我会发学习强化学习的路径和demo。


我是从原理论证到demo实现的方法进行摸索;当然,原理论证大家可以不用花太多时间,只需要知道知道大概就行,比如折扣因子γ、学习率、探索率、纯贪心策略、贪心策略、神经网络拟合等超参数就行。

大概:

原理论证:

推荐哔哩哔哩up主:

西湖大学WindyLab

【强化学习的数学原理】课程:从零开始到透彻理解(完结)_哔哩哔哩_bilibili

从贝尔曼方程->贝尔曼最优->MC->值函数和策略方法->时序差分->随机梯度近似和下降->值函数近似和策略梯度方法->TRPO->PPO->SAC->模仿学习->MPC->MBPO->离线强化学习->IPPO->MADDPG->MAPPO->HAPPO

demo实现:

我推荐学习这本书,有电子版的;

教材PDF+PPT+代码网址:这个是上面up主提供的;

  1. 【Github】:https://github.com/MathFoundationRL/Book-Mathmatical-Foundation-of-Reinforcement-Learning

  2. 【百度网盘】:https://pan.baidu.com/s/1kNxM8sl8FUWV6SiiGIep3Q?pwd=ghx8 3. 【Onedrive】:https://westlakeu-my.sharepoint.com/:f:/g/personal/lyujialing_westlake_edu_cn/EgN1-0jOU61BnaTkG7zJ9nsBUdjKEi6hNrdT5n8mp-qn3g?e=3MbtmD 其中GitHub的材料是最新的,有条件的推荐访问GitHub;

后面我也会把我个人跑课程项目以及基于开源项目的开发(不限于改网络)的demo发到Github上,当然可能不会发比较简单的demo。

相关推荐
星马梦缘1 天前
rl库 AttributeError: ‘bool‘ object has no attribute ‘items‘ 的解决方案
人工智能·深度学习·机器学习·强化学习
星马梦缘3 天前
强化学习实战4——自定义环境的搭建
python·深度学习·机器学习·强化学习·q-learning·baseline3
机器学习之心4 天前
强化学习驱动的光伏功率时间序列预测:LSTM与GRU动态权重组合方法Python
python·gru·lstm·强化学习·动态权重组合方法
星马梦缘4 天前
强化学习实战3——自定义环境的搭建Q-LEARNING
强化学习·dqn·q-learning·baseline3
山顶夕景6 天前
【MLLM】GraphWalker:Deepresearch用于图像生成
大模型·强化学习·图像生成·rl·agentic
机器觉醒时代7 天前
RL Token:破解 VLA “最后一厘米”精度难题,在线强化学习实现机器人精准操控
人工智能·机器人·强化学习·具身智能·vla模型
码农垦荒笔记8 天前
LLM 后训练革命:GRPO、DAPO 与 RLVR 如何替代 RLHF 重塑大模型对齐训练
人工智能·强化学习·grpo·dapo
威化饼的一隅9 天前
【大模型LLM学习】从强化学习到GRPO【下】
大模型·llm·agent·强化学习·智能体·grpo
威化饼的一隅9 天前
【大模型LLM学习】从强化学习到GRPO【上】
大模型·llm·agent·强化学习·智能体·grpo