强化学习路径教程

好久没有发文章了,最近都在学强化学习了!接下来我会发学习强化学习的路径和demo。


我是从原理论证到demo实现的方法进行摸索;当然,原理论证大家可以不用花太多时间,只需要知道知道大概就行,比如折扣因子γ、学习率、探索率、纯贪心策略、贪心策略、神经网络拟合等超参数就行。

大概:

原理论证:

推荐哔哩哔哩up主:

西湖大学WindyLab

【强化学习的数学原理】课程:从零开始到透彻理解(完结)_哔哩哔哩_bilibili

从贝尔曼方程->贝尔曼最优->MC->值函数和策略方法->时序差分->随机梯度近似和下降->值函数近似和策略梯度方法->TRPO->PPO->SAC->模仿学习->MPC->MBPO->离线强化学习->IPPO->MADDPG->MAPPO->HAPPO

demo实现:

我推荐学习这本书,有电子版的;

教材PDF+PPT+代码网址:这个是上面up主提供的;

  1. 【Github】:https://github.com/MathFoundationRL/Book-Mathmatical-Foundation-of-Reinforcement-Learning

  2. 【百度网盘】:https://pan.baidu.com/s/1kNxM8sl8FUWV6SiiGIep3Q?pwd=ghx8 3. 【Onedrive】:https://westlakeu-my.sharepoint.com/:f:/g/personal/lyujialing_westlake_edu_cn/EgN1-0jOU61BnaTkG7zJ9nsBUdjKEi6hNrdT5n8mp-qn3g?e=3MbtmD 其中GitHub的材料是最新的,有条件的推荐访问GitHub;

后面我也会把我个人跑课程项目以及基于开源项目的开发(不限于改网络)的demo发到Github上,当然可能不会发比较简单的demo。

相关推荐
阿里云大数据AI技术15 小时前
开发者博客|在阿里云 PAI 平台实现规模化的机器人感知强化学习
人工智能·阿里云·机器人·强化学习·nvidia
deephub2 天前
2026 年面向 LLM 的 RL方法总结:从 PPO 到 DPO 到 GRPO,再到多智能体 RL
人工智能·大语言模型·强化学习·多智能体
Robot_Nav2 天前
深度学习与强化学习面试八股文知识点汇总
人工智能·深度学习·强化学习
盼小辉丶3 天前
PyTorch强化学习实战(9)——深度Q学习
pytorch·深度学习·强化学习
我爱C编程4 天前
基于Sarsa强化学习的异构蜂窝网络中基站休眠算法matlab仿真
网络·matlab·强化学习·sarsa·异构蜂窝网络·基站休眠
熊猫钓鱼>_>5 天前
强化学习与决策优化:从理论到工程落地的完整指南
人工智能·llm·强化学习·rl·马尔可夫·mdp·决策过程
盼小辉丶7 天前
PyTorch强化学习实战(8)——Q学习详解与实现
pytorch·深度学习·强化学习
星座5287 天前
驾驭AI 2.0时代:Transformer、扩散模型与物理信息神经网络核心技术解析
人工智能·深度学习·神经网络·transformer·强化学习·目标检测算法
橘白3168 天前
rl笔记(一):策略梯度更新算法推导
人工智能·算法·机器人·强化学习
盼小辉丶10 天前
PyTorch强化学习实战(7)——表格学习与贝尔曼方程
pytorch·深度学习·强化学习