收藏!强化学习从入门到封神:5 本经典教材 + 8 大实战项目 + 7个免费视频,一站式搞定

原文:https://mp.weixin.qq.com/s/nfN0dWT3ZfDuW7ZGfaG6dA

学习资源

经典教材

《大模型算法:强化学习、微调与对齐》

  • 原创 100+ 架构图,系统讲解大模型、强化学习,涵盖:LLM / VLM 等大模型原理、训练算法(RL、RLHF、GRPO、DPO、SFT 与 CoT 蒸馏等)、效果优化与 RAG 等。
  • https://github.com/changyeyu/LLM-RL-Visualized | 1.5k**⭐**

Deep Reinforcement Learning Hands-On

Reinforcement Learning: An Introduction

动手学强化学习

  • 本书一共分为三个部分,分别为动手学习基础篇、动手学习进阶篇和动手学习前沿篇。基础篇关注于 tabular 场景下的 RL,即状态和动作空间都是有限的;进阶篇的内容突破这一限制,考虑连续的状态或动作,此时我们会使用到神经网络。最后,在前沿篇我们会介绍强化学习领域一些有趣的方向,以及相对应的前沿算法
  • 动手学强化学习
  • B站视频链接
  • https://github.com/boyu-ai/Hands-on-RL | 4.1k

蘑菇书EasyRL

  • 整理了李宏毅老师的《深度强化学习》中文视频、周博磊老师的《强化学习纲要》、李科浇老师的《世界冠军带你从零实践强化学习》以及多个强化学习的经典资料。包含RL经典论文解读,见github地址。
  • 蘑菇书EasyRL
  • https://github.com/datawhalechina/easy-rl | 12.8k

博客

OpenAI Spinning Up

Andrej Karpathy blog

小鸟FlappyBird游戏+DQN算法

刘建平Pinard - 博客园

视频资源

莫烦-强化学习

David Silver-强化学习课程

西湖大学-强化学习课程

【王树森】深度强化学习(DRL)

伯克利深度强化学习课程 CS285

李宏毅-深度强化学习

从零开始的强化学习代码实现

应用实战

github开源

强化学习仿真环境Legged Gym的初步使用------训练一个二阶倒立摆

https://blog.zzshub.cn/2024/06/25/DRL_LeggedgymCartpole2/

本篇教程大致介绍 Legged Gym 的结构,使用方法,并以一个二阶倒立摆为例来完成一次实际的强化学习训练。适合强化学习初学者复现。

文档包含 ①强化学习基本概念 ②Legged Gym 环境安装 ③Legged Gym 代码结构介绍 ④二阶倒立摆训练项目代码解读。

开发工具

序号 工具名称 工具描述
1 Gymnasium开源工具包 官网介绍 包含详细介绍、使用教程、api汇总等Gymnasium 是强化学习领域的一个开源工具包,用于开发和比较强化学习算法。它最初是OpenAI Gym 的延续,提供了标准化的 API 和多样化的环境,方便研究人员和开发者训练.测试和评估智能体(Agent)的表现。这是一个通用强化学习环境库,适用于广泛的RL任务Gymnasium是一个轻量级的工具包,主要基于CPU运行,适合学术研究和小规模实验。Gymnasium的学习、使用相关经验贴 【强化学习】Gymnasium库的介绍和使用如何开心地入门gym(gymnasium)
2 RLlib(Ray) Ray是UCBerkeley RISELab开发的分布式编程框架,其中的RLlib提供了很多的强化学习算法支持,支持常见的PPO、SAC、TD3、IMPALA、DQN等算法。提供了不错的分布式支持。后端支持:TensorFlow + PyTorchgithub:https://github.com/ray-project/ray
3 Gym Retro 大约18年,OpenAI 发布了完整版游戏强化学习研究平台------Gym Retro。游戏数量从大约 70 个雅达利和 30 个世嘉游戏增加到了1000多个游戏,其中包括对Game boy等各种模拟器的支持。此外,OpenAI 还将发布用于向 Gym 平台添加新游戏的工具。Github: https://github.com/openai/retro/tree/develop
相关推荐
我爱C编程10 小时前
基于Qlearning强化学习的多基站分簇拓扑控制算法matlab仿真
matlab·强化学习·qlearning·多基站·分簇拓扑控制
强盛机器学习~1 天前
考虑异常天气和太阳辐射下基于强化学习的无人机三维路径规划
算法·matlab·无人机·强化学习·路径规划·无人机路径规划·q-learning
丰。。1 天前
3D高斯泼溅研究01
人工智能·深度学习·3d·强化学习·深度强化学习
星马梦缘1 天前
强化学习实战7——用决策树打赢星际争霸II
人工智能·决策树·强化学习·deepmind·星际争霸·sc2
简简单单做算法2 天前
基于Qlearning强化学习的RoboCup足球场景下Agent智能进球决策matlab模拟与仿真
matlab·agent·强化学习·qlearning·robocup·智能进球决策
无问芯穹3 天前
探路智能体落地“最后一公里”:复现Cursor在线强化学习,RLinf-Online团队详解技术实现路径及背后思考
agent·强化学习·rlinf
我爱C编程3 天前
基于分层QLearning强化学习的联合抗干扰算法matlab仿真
matlab·强化学习·分层qlearning·联合抗干扰
星马梦缘4 天前
强化学习实战5——BaseLine3使用自定义环境训练【输入状态向量】
pytorch·python·jupyter·强化学习·baseline3·gymnasium
可编程芯片开发4 天前
基于QLearning强化学习的输电线路拟声驱鸟策略算法matlab仿真
matlab·强化学习·qlearning·输电线路·驱鸟策略
让子弹飞025 天前
强化学习路径教程
强化学习