强化学习路径教程

让子弹飞022026-04-08 14:07

好久没有发文章了，最近都在学强化学习了！接下来我会发学习强化学习的路径和demo。

我是从原理论证到demo实现的方法进行摸索；当然，原理论证大家可以不用花太多时间，只需要知道知道大概就行，比如折扣因子γ、学习率、探索率、纯贪心策略、贪心策略、神经网络拟合等超参数就行。

大概：

原理论证：

推荐哔哩哔哩up主：

西湖大学WindyLab

【强化学习的数学原理】课程：从零开始到透彻理解（完结）_哔哩哔哩_bilibili

从贝尔曼方程->贝尔曼最优->MC->值函数和策略方法->时序差分->随机梯度近似和下降->值函数近似和策略梯度方法->TRPO->PPO->SAC->模仿学习->MPC->MBPO->离线强化学习->IPPO->MADDPG->MAPPO->HAPPO

demo实现：

我推荐学习这本书，有电子版的；

教材PDF+PPT+代码网址：这个是上面up主提供的；

【Github】：https://github.com/MathFoundationRL/Book-Mathmatical-Foundation-of-Reinforcement-Learning
【百度网盘】：https://pan.baidu.com/s/1kNxM8sl8FUWV6SiiGIep3Q?pwd=ghx8 3. 【Onedrive】：https://westlakeu-my.sharepoint.com/:f:/g/personal/lyujialing_westlake_edu_cn/EgN1-0jOU61BnaTkG7zJ9nsBUdjKEi6hNrdT5n8mp-qn3g?e=3MbtmD 其中GitHub的材料是最新的，有条件的推荐访问GitHub;

后面我也会把我个人跑课程项目以及基于开源项目的开发（不限于改网络）的demo发到Github上，当然可能不会发比较简单的demo。

上一篇：OpenCV 实战：基于 SIFT 算法实现指纹图像验证

下一篇：【Java】堆

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 05AI科技热点日报 | 2026年07月01日 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08【AI前线观察】2026年国产开源大模型全面横评：从 DeepSeek V4 到 Kimi K3，谁才是开发者的最优选择？092026 年 AI 大模型 & AI 编程工具实战全总结 102026年AI技术突破与产业落地全景：从GPT-5到多模态智能体的新纪元