强化学习路径教程

好久没有发文章了,最近都在学强化学习了!接下来我会发学习强化学习的路径和demo。


我是从原理论证到demo实现的方法进行摸索;当然,原理论证大家可以不用花太多时间,只需要知道知道大概就行,比如折扣因子γ、学习率、探索率、纯贪心策略、贪心策略、神经网络拟合等超参数就行。

大概:

原理论证:

推荐哔哩哔哩up主:

西湖大学WindyLab

【强化学习的数学原理】课程:从零开始到透彻理解(完结)_哔哩哔哩_bilibili

从贝尔曼方程->贝尔曼最优->MC->值函数和策略方法->时序差分->随机梯度近似和下降->值函数近似和策略梯度方法->TRPO->PPO->SAC->模仿学习->MPC->MBPO->离线强化学习->IPPO->MADDPG->MAPPO->HAPPO

demo实现:

我推荐学习这本书,有电子版的;

教材PDF+PPT+代码网址:这个是上面up主提供的;

  1. 【Github】:https://github.com/MathFoundationRL/Book-Mathmatical-Foundation-of-Reinforcement-Learning

  2. 【百度网盘】:https://pan.baidu.com/s/1kNxM8sl8FUWV6SiiGIep3Q?pwd=ghx8 3. 【Onedrive】:https://westlakeu-my.sharepoint.com/:f:/g/personal/lyujialing_westlake_edu_cn/EgN1-0jOU61BnaTkG7zJ9nsBUdjKEi6hNrdT5n8mp-qn3g?e=3MbtmD 其中GitHub的材料是最新的,有条件的推荐访问GitHub;

后面我也会把我个人跑课程项目以及基于开源项目的开发(不限于改网络)的demo发到Github上,当然可能不会发比较简单的demo。

相关推荐
科研小刘带你玩学术17 小时前
【科研快讯】KAIST突破性研究:让机器人“读懂“人类意图——VOTP算法开启Physical AI新纪元
论文·强化学习·机器人视觉·physical ai·人类意图识别·reward function
君为先-bey5 天前
DiffusionOPD——扩散模型中在线策略蒸馏的统一视角
强化学习·扩散模型·opd
盼小辉丶5 天前
PyTorch强化学习实战(12)——Double DQN(DDQN)
人工智能·pytorch·深度学习·强化学习
亲爱的阿瞎7 天前
p12 3.3 学习状态值函数_cdn
强化学习
亲爱的阿瞎8 天前
p09 2.4 random stochastic e_cdn
强化学习
亲爱的阿瞎9 天前
p08 2.3 贝尔曼方程_cdn
强化学习
盼小辉丶9 天前
PyTorch强化学习实战(11)——N步DQN(N-step DQN)
pytorch·python·深度学习·强化学习
啵啵鱼爱吃小猫咪11 天前
示教学习强化学习用的标准数据集
机器人·强化学习·示教学习
SuperHeroWu711 天前
【算法】强化学习中奖励和损失函数的关系
算法·环境·强化学习·损失函数·奖励
Agilex松灵机器人11 天前
松灵技术生态|IsaacLab中实现松灵PIPER机械臂键盘遥操作与数据采集教程
agent·强化学习·仿真·具身智能·skill·松灵机器人