【强化学习】【1】【PyTorch】【强化学习简介优化框架】

前言

强化学习(Reinforcement Learning, RL)作为人工智能领域最具前景的分支之一,通过智能体与环境的交互式学习机制,正在重塑决策智能系统的技术范式。为帮助学习者系统掌握该领域的核心知识与实践技能,本课程整合西湖大学赵世钰教授权威课程体系、Python代码驱动的实战项目以及模块化知识图谱(ShareNote),构建"理论-算法-实现"三位一体的强化学习教学框架.

整个课程分为5部分,大概一个月左右.


第一部分:基础理论

第1章 强化学习核心概念与MDP框架

  • 核心三要素:状态(State)、动作(Action)、奖励(Reward)

  • 延伸概念:回合(Episode)、策略(Policy)、回报(Return)、折扣因子

  • 案例教学:网格世界(Grid-World)示例

  • 数学框架:马尔可夫决策过程(MDP)形式化定义

第2章 贝尔曼方程与策略评估

  • 状态值函数(State Value Function)

  • 贝尔曼期望方程推导

  • 策略评估算法(迭代法解贝尔曼方程)

第3章 最优性与贝尔曼最优方程

  • 最优策略存在性定理

  • 贝尔曼最优方程推导

  • 不动点定理与方程求解意义

  • 算法可行性分析(值迭代思想铺垫)


第二部分:基于模型的规划算法

第4章 经典动态规划算法

  • 值迭代(Value Iteration)算法

  • 策略迭代(Policy Iteration)算法

  • 截断策略迭代(Truncated PI)

  • 环境模型(Environment Model)依赖性分析


第三部分:无模型学习基础

第5章 蒙特卡洛方法

  • 无模型学习核心思想

  • 采样均值估计原理

  • 算法演进:MC Basic → MC Exploring Starts → MC ε-Greedy

第6章 增量式学习与随机优化

  • 非增量到增量式学习的必要性

  • 随机近似理论:Robbins-Monro算法

  • 优化视角:SGD vs BGD vs Mini-batch GD

  • 增量式更新的工程优势

第7章 时序差分(TD)学习与经典算法

  • TD(0) 算法原理(值函数估计)

  • Sarsa:同策略TD动作值学习

  • Q-learning:异策略最优值学习

  • 同策略(On-policy) vs 异策略(Off-policy)对比


第四部分:函数逼近与深度强化学习

第8章 从表格表示到函数逼近

  • 高维状态空间挑战

  • 线性函数逼近:V(s;w) 与 Q(s,a;w)

  • 算法升级:Sarsa/VFA、Q-learning/VFA

  • 深度Q网络(DQN):经验回放与目标网络


第五部分:策略优化进阶

第9章 策略梯度方法

  • 价值函数与直接策略优化的对比

  • 策略梯度定理推导

  • REINFORCE算法(蒙特卡洛策略梯度)

第10章 Actor-Critic框架

  • 策略-价值混合架构思想

  • 基本Actor-Critic(QAC)

  • 优势函数(Advantage)改进(A2C)

  • 重要性采样与异策略AC(Off-policy AC)

  • 确定性策略梯度(DPG)

第11章 近端策略优化(PPO)

  • 重要性采样比率裁剪

  • 目标函数设计与实践优势

第12章 直接策略优化(DPO)

  • 基于能量模型的目标函数

  • 对比PPO的改进动机

第13章 群体相对策略优化(GRPO)

  • 多智能体协作场景下的策略优化

  • 相对奖励设计与分布式训练


【强化学习的数学原理】课程:从零开始到透彻理解(完结)_哔哩哔哩_bilibili

【莫烦Python】强化学习 Reinforcement Learning_哔哩哔哩_bilibili

Reinforcement Learning | GeeksforGeeks

What is Reinforcement Learning? -- Overview of How it Works | Synopsys

IBM Developer

我愿称李宏毅强化学习为天花板课程!简单易懂!清晰明了的 PPO算法强化学习入门教程!深度强化学习、人工智能、神经网络_哔哩哔哩_bilibili

【子豪兄】深度强化学习 Deep Reinforcement Learning_哔哩哔哩_bilibili

【强化学习】2025最新!终于有油管大神把强化学习做成动画啦!原理解析+实战操作!草履虫都能学会!------人工智能/强化学习/机器学习_哔哩哔哩_bilibili

相关推荐
暴力求解9 分钟前
C++类和对象(上)
开发语言·c++·算法
JKHaaa16 分钟前
几种简单的排序算法(C语言)
c语言·算法·排序算法
让我们一起加油好吗22 分钟前
【基础算法】枚举(普通枚举、二进制枚举)
开发语言·c++·算法·二进制·枚举·位运算
FogLetter40 分钟前
微信红包算法揭秘:从随机性到产品思维的完美结合
算法
BUG收容所所长1 小时前
二分查找的「左右为难」:如何优雅地找到数组中元素的首尾位置
前端·javascript·算法
itsuifengerxing2 小时前
python 自定义无符号右移
算法
猎板PCB厚铜专家大族2 小时前
高频 PCB 技术发展趋势与应用解析
人工智能·算法·设计规范
dying_man2 小时前
LeetCode--24.两两交换链表中的结点
算法·leetcode
yours_Gabriel2 小时前
【力扣】2434.使用机器人打印字典序最小的字符串
算法·leetcode·贪心算法
草莓熊Lotso3 小时前
【数据结构初阶】--算法复杂度的深度解析
c语言·开发语言·数据结构·经验分享·笔记·其他·算法