收藏!强化学习从入门到封神:5 本经典教材 + 8 大实战项目 + 7个免费视频,一站式搞定

原文:https://mp.weixin.qq.com/s/nfN0dWT3ZfDuW7ZGfaG6dA

学习资源

经典教材

《大模型算法:强化学习、微调与对齐》

  • 原创 100+ 架构图,系统讲解大模型、强化学习,涵盖:LLM / VLM 等大模型原理、训练算法(RL、RLHF、GRPO、DPO、SFT 与 CoT 蒸馏等)、效果优化与 RAG 等。
  • https://github.com/changyeyu/LLM-RL-Visualized | 1.5k**⭐**

Deep Reinforcement Learning Hands-On

Reinforcement Learning: An Introduction

动手学强化学习

  • 本书一共分为三个部分,分别为动手学习基础篇、动手学习进阶篇和动手学习前沿篇。基础篇关注于 tabular 场景下的 RL,即状态和动作空间都是有限的;进阶篇的内容突破这一限制,考虑连续的状态或动作,此时我们会使用到神经网络。最后,在前沿篇我们会介绍强化学习领域一些有趣的方向,以及相对应的前沿算法
  • 动手学强化学习
  • B站视频链接
  • https://github.com/boyu-ai/Hands-on-RL | 4.1k

蘑菇书EasyRL

  • 整理了李宏毅老师的《深度强化学习》中文视频、周博磊老师的《强化学习纲要》、李科浇老师的《世界冠军带你从零实践强化学习》以及多个强化学习的经典资料。包含RL经典论文解读,见github地址。
  • 蘑菇书EasyRL
  • https://github.com/datawhalechina/easy-rl | 12.8k

博客

OpenAI Spinning Up

Andrej Karpathy blog

小鸟FlappyBird游戏+DQN算法

刘建平Pinard - 博客园

视频资源

莫烦-强化学习

David Silver-强化学习课程

西湖大学-强化学习课程

【王树森】深度强化学习(DRL)

伯克利深度强化学习课程 CS285

李宏毅-深度强化学习

从零开始的强化学习代码实现

应用实战

github开源

强化学习仿真环境Legged Gym的初步使用------训练一个二阶倒立摆

https://blog.zzshub.cn/2024/06/25/DRL_LeggedgymCartpole2/

本篇教程大致介绍 Legged Gym 的结构,使用方法,并以一个二阶倒立摆为例来完成一次实际的强化学习训练。适合强化学习初学者复现。

文档包含 ①强化学习基本概念 ②Legged Gym 环境安装 ③Legged Gym 代码结构介绍 ④二阶倒立摆训练项目代码解读。

开发工具

序号 工具名称 工具描述
1 Gymnasium开源工具包 官网介绍 包含详细介绍、使用教程、api汇总等Gymnasium 是强化学习领域的一个开源工具包,用于开发和比较强化学习算法。它最初是OpenAI Gym 的延续,提供了标准化的 API 和多样化的环境,方便研究人员和开发者训练.测试和评估智能体(Agent)的表现。这是一个通用强化学习环境库,适用于广泛的RL任务Gymnasium是一个轻量级的工具包,主要基于CPU运行,适合学术研究和小规模实验。Gymnasium的学习、使用相关经验贴 【强化学习】Gymnasium库的介绍和使用如何开心地入门gym(gymnasium)
2 RLlib(Ray) Ray是UCBerkeley RISELab开发的分布式编程框架,其中的RLlib提供了很多的强化学习算法支持,支持常见的PPO、SAC、TD3、IMPALA、DQN等算法。提供了不错的分布式支持。后端支持:TensorFlow + PyTorchgithub:https://github.com/ray-project/ray
3 Gym Retro 大约18年,OpenAI 发布了完整版游戏强化学习研究平台------Gym Retro。游戏数量从大约 70 个雅达利和 30 个世嘉游戏增加到了1000多个游戏,其中包括对Game boy等各种模拟器的支持。此外,OpenAI 还将发布用于向 Gym 平台添加新游戏的工具。Github: https://github.com/openai/retro/tree/develop
相关推荐
山顶夕景1 天前
【RL】Scaling RL Compute for LLMs
深度学习·大模型·强化学习
九年义务漏网鲨鱼3 天前
【Agentic RL 专题】二、Agentic RL——Memory
人工智能·大模型·强化学习·记忆模块
盼小辉丶4 天前
Double DQN(DDQN)详解与实现
深度学习·keras·强化学习
沉迷单车的追风少年5 天前
Diffusion Model与视频超分(2):解读字节开源视频增强模型SeedVR2
人工智能·深度学习·aigc·音视频·强化学习·视频生成·视频超分
信鑫5 天前
AIO Sandbox:为 AI Agent 打造的一体化、可定制的沙箱环境
llm·agent·强化学习
武子康12 天前
AI研究-109-具身智能 机器人模型验证SOP流程详解|仿真 现实 回放 模板&理论
人工智能·机器人·强化学习·ros2·具身智能·仿真测试·a/b测试
marsggbo12 天前
LLM 场景下的强化学习技术扫盲
llm·强化学习·ppo·dpo·grpo
2401_8414956412 天前
【强化学习】动态规划算法
人工智能·python·算法·动态规划·强化学习·策略迭代·价值迭代
Python算法实战13 天前
腾讯送命题:手写多头注意力机制。。。
人工智能·算法·面试·大模型·强化学习