原文:https://mp.weixin.qq.com/s/nfN0dWT3ZfDuW7ZGfaG6dA
学习资源
经典教材
- 原创 100+ 架构图,系统讲解大模型、强化学习,涵盖:LLM / VLM 等大模型原理、训练算法(RL、RLHF、GRPO、DPO、SFT 与 CoT 蒸馏等)、效果优化与 RAG 等。
 - https://github.com/changyeyu/LLM-RL-Visualized | 1.5k**⭐**
 
Deep Reinforcement Learning Hands-On
- 以简洁易懂的方式讲解深度强化学习,结合 PyTorch 等现代库,通过游戏、股票交易等多样化应用案例,帮助读者从基础逐步掌握到高级概念。
 - v1版代码:https://github.com/PacktPublishing/Deep-Reinforcement-Learning-Hands-On | 3k**⭐**
 - v2版代码:https://github.com/PacktPublishing/Deep-Reinforcement-Learning-Hands-On-Second-Edition | 1.3k**⭐**
 
Reinforcement Learning: An Introduction
- 强化学习之父Richard sutton的书,强化学习圣经级的入门书籍
 - 第一版: http://incompleteideas.net/book/first/the-book.html
 - 翻译版: https://rl.qiwihui.com/zh-cn/latest/index.html
 - 第二版: http://incompleteideas.net/book/the-book.html
 - https://github.com/ShangtongZhang/reinforcement-learning-an-introduction | 14.4k**⭐**
 - UCL课程:https://dennybritz.com/posts/wildml/learning-reinforcement-learning/
- https://github.com/dennybritz/reinforcement-learning | 21.7k**⭐**
 
 
动手学强化学习
- 本书一共分为三个部分,分别为动手学习基础篇、动手学习进阶篇和动手学习前沿篇。基础篇关注于 tabular 场景下的 RL,即状态和动作空间都是有限的;进阶篇的内容突破这一限制,考虑连续的状态或动作,此时我们会使用到神经网络。最后,在前沿篇我们会介绍强化学习领域一些有趣的方向,以及相对应的前沿算法
 - 动手学强化学习
 - B站视频链接
 - https://github.com/boyu-ai/Hands-on-RL | 4.1k ⭐
 
蘑菇书EasyRL
- 整理了李宏毅老师的《深度强化学习》中文视频、周博磊老师的《强化学习纲要》、李科浇老师的《世界冠军带你从零实践强化学习》以及多个强化学习的经典资料。包含RL经典论文解读,见github地址。
 - 蘑菇书EasyRL
 - https://github.com/datawhalechina/easy-rl | 12.8k ⭐
 
博客
OpenAI Spinning Up
- OpenAI 的 Spinning Up 仓库是一个深度学习强化学习的教育资源,包含入门介绍、论文列表、关键算法的独立实现及练习等内容
 - https://spinningup.openai.com/en/latest/index.html
 - https://github.com/openai/spinningup | 11.3k**⭐**
 
- 应用强化学习的策略梯度算法的乒乓球游戏,Andrej Karpathy通过130行代码实现的,帮助理解强化学习算法。
 - Deep Reinforcement Learning: Pong from Pixels
 - https://github.com/llSourcell/Policy_Gradients_to_beat_Pong | 11.3k**⭐**
 
小鸟FlappyBird游戏+DQN算法
- 该项目通过卷积神经网络+Q-learning算法,利用Keras框架共210行代码实现了让程序自己学习如何玩耍FlappyBird
 - https://www.jianshu.com/p/3ba69493f020
 
刘建平Pinard - 博客园
- 系列文章,很适合初学者,对应Sutton书和UCL课程内容
 - https://www.cnblogs.com/pinard/p/9385570.html
 - https://github.com/ljpzzz/machinelearning/tree/master/reinforcement-learning | 8.6k**⭐**
 
视频资源
莫烦-强化学习
- 强化学习 (Reinforcement Learning) | 莫烦Python
 - https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflow | 9.3k**⭐**
 
David Silver-强化学习课程
- B站:【强化学习】Reinforcement Learning Course by David Silver
 - David Silver强化学习公开课中文讲解及实践
 - 官方课程主页:https://davidstarsilver.wordpress.com/teaching/
 - https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflow | 9.3k**⭐**
 
西湖大学-强化学习课程
- B站: https://www.bilibili.com/video/BV1sd4y167NS/?p=2&share_source=copy_web&vd_source=cf2e0a6d168973a9ab8fe97987fec152
 - 重点讲解数学理论
 - https://github.com/MathFoundationRL/Book-Mathematical-Foundation-of-Reinforcement-Learning | 12.6k**⭐**
 - 百度网盘: https://pan.baidu.com/s/1kNxM8sl8FUWV6SiiGIep3Q?pwd=ghx8
 
【王树森】深度强化学习(DRL)
- 基本概念、价值学习、策略学习、Actor-Critic方法、AlphaGo、Monte Carlo (蒙特卡洛)
 - B站: https://www.bilibili.com/video/BV12o4y197US/?share_source=copy_web&vd_source=cf2e0a6d168973a9ab8fe97987fec152
 - 下载链接:https://pan.baidu.com/s/1XpTgny_Vr0LobBsuYF4KkA 密码:x0wb
 - https://github.com/wangshusen/DRL | 4.3k**⭐**
 
伯克利深度强化学习课程 CS285
- B站:
 - 官方课程主页
 - https://github.com/wangshusen/DRL | 4.3k**⭐**
 
李宏毅-深度强化学习
从零开始的强化学习代码实现
- B站: 真-极简爬坡式强化学习入门(代码现编,PyTorch版)
 - 代码实践推荐,涵盖了多种强化学习算法的代码实现,如 Qlearning、SARSA、DQA、双 q算法以及经验回放等代码质量高,从零开始,简单精炼。理论讲解一般,建议从其他课程学习理论后跟练代码。
 
应用实战
github开源
- 基于 tensorflow 的强化学习的五子棋人机对弈
 - AlphaGo-Zero-Gobang
 - Reinforcement-learning-with-tensorflow
 - 强化学习五子棋
 - 8+ Reinforcement Learning Project Ideas
 - DRL-Pytorch | 主流强化学习算法实现
 - Baselines:实现了几乎所有的强化学习算法 | 16.5k⭐
 - Stable Baselines:文档更友善、代码更优化的Baselines升级版
 
强化学习仿真环境Legged Gym的初步使用------训练一个二阶倒立摆
https://blog.zzshub.cn/2024/06/25/DRL_LeggedgymCartpole2/
本篇教程大致介绍 Legged Gym 的结构,使用方法,并以一个二阶倒立摆为例来完成一次实际的强化学习训练。适合强化学习初学者复现。
文档包含 ①强化学习基本概念 ②Legged Gym 环境安装 ③Legged Gym 代码结构介绍 ④二阶倒立摆训练项目代码解读。
开发工具
| 序号 | 工具名称 | 工具描述 | 
|---|---|---|
| 1 | Gymnasium开源工具包 | 官网介绍 包含详细介绍、使用教程、api汇总等Gymnasium 是强化学习领域的一个开源工具包,用于开发和比较强化学习算法。它最初是OpenAI Gym 的延续,提供了标准化的 API 和多样化的环境,方便研究人员和开发者训练.测试和评估智能体(Agent)的表现。这是一个通用强化学习环境库,适用于广泛的RL任务Gymnasium是一个轻量级的工具包,主要基于CPU运行,适合学术研究和小规模实验。Gymnasium的学习、使用相关经验贴 【强化学习】Gymnasium库的介绍和使用如何开心地入门gym(gymnasium) | 
| 2 | RLlib(Ray) | Ray是UCBerkeley RISELab开发的分布式编程框架,其中的RLlib提供了很多的强化学习算法支持,支持常见的PPO、SAC、TD3、IMPALA、DQN等算法。提供了不错的分布式支持。后端支持:TensorFlow + PyTorchgithub:https://github.com/ray-project/ray | 
| 3 | Gym Retro | 大约18年,OpenAI 发布了完整版游戏强化学习研究平台------Gym Retro。游戏数量从大约 70 个雅达利和 30 个世嘉游戏增加到了1000多个游戏,其中包括对Game boy等各种模拟器的支持。此外,OpenAI 还将发布用于向 Gym 平台添加新游戏的工具。Github: https://github.com/openai/retro/tree/develop |