好久没有发文章了,最近都在学强化学习了!接下来我会发学习强化学习的路径和demo。
我是从原理论证到demo实现的方法进行摸索;当然,原理论证大家可以不用花太多时间,只需要知道知道大概就行,比如折扣因子γ、学习率、探索率、纯贪心策略、贪心策略、神经网络拟合等超参数就行。
大概:
原理论证:
推荐哔哩哔哩up主:
【强化学习的数学原理】课程:从零开始到透彻理解(完结)_哔哩哔哩_bilibili
从贝尔曼方程->贝尔曼最优->MC->值函数和策略方法->时序差分->随机梯度近似和下降->值函数近似和策略梯度方法->TRPO->PPO->SAC->模仿学习->MPC->MBPO->离线强化学习->IPPO->MADDPG->MAPPO->HAPPO
demo实现:
我推荐学习这本书,有电子版的;

教材PDF+PPT+代码网址:这个是上面up主提供的;
-
【Github】:https://github.com/MathFoundationRL/Book-Mathmatical-Foundation-of-Reinforcement-Learning
-
【百度网盘】:https://pan.baidu.com/s/1kNxM8sl8FUWV6SiiGIep3Q?pwd=ghx8 3. 【Onedrive】:https://westlakeu-my.sharepoint.com/:f:/g/personal/lyujialing_westlake_edu_cn/EgN1-0jOU61BnaTkG7zJ9nsBUdjKEi6hNrdT5n8mp-qn3g?e=3MbtmD 其中GitHub的材料是最新的,有条件的推荐访问GitHub;
后面我也会把我个人跑课程项目以及基于开源项目的开发(不限于改网络)的demo发到Github上,当然可能不会发比较简单的demo。