前言
强化学习(Reinforcement Learning, RL)作为人工智能领域最具前景的分支之一,通过智能体与环境的交互式学习机制,正在重塑决策智能系统的技术范式。为帮助学习者系统掌握该领域的核心知识与实践技能,本课程整合西湖大学赵世钰教授权威课程体系、Python代码驱动的实战项目以及模块化知识图谱(ShareNote),构建"理论-算法-实现"三位一体的强化学习教学框架.
整个课程分为5部分,大概一个月左右.

第一部分:基础理论
第1章 强化学习核心概念与MDP框架
-
核心三要素:状态(State)、动作(Action)、奖励(Reward)
-
延伸概念:回合(Episode)、策略(Policy)、回报(Return)、折扣因子
-
案例教学:网格世界(Grid-World)示例
-
数学框架:马尔可夫决策过程(MDP)形式化定义
第2章 贝尔曼方程与策略评估
-
状态值函数(State Value Function)
-
贝尔曼期望方程推导
-
策略评估算法(迭代法解贝尔曼方程)
第3章 最优性与贝尔曼最优方程
-
最优策略存在性定理
-
贝尔曼最优方程推导
-
不动点定理与方程求解意义
-
算法可行性分析(值迭代思想铺垫)
第二部分:基于模型的规划算法
第4章 经典动态规划算法
-
值迭代(Value Iteration)算法
-
策略迭代(Policy Iteration)算法
-
截断策略迭代(Truncated PI)
-
环境模型(Environment Model)依赖性分析
第三部分:无模型学习基础
第5章 蒙特卡洛方法
-
无模型学习核心思想
-
采样均值估计原理
-
算法演进:MC Basic → MC Exploring Starts → MC ε-Greedy
第6章 增量式学习与随机优化
-
非增量到增量式学习的必要性
-
随机近似理论:Robbins-Monro算法
-
优化视角:SGD vs BGD vs Mini-batch GD
-
增量式更新的工程优势
第7章 时序差分(TD)学习与经典算法
-
TD(0) 算法原理(值函数估计)
-
Sarsa:同策略TD动作值学习
-
Q-learning:异策略最优值学习
-
同策略(On-policy) vs 异策略(Off-policy)对比
第四部分:函数逼近与深度强化学习
第8章 从表格表示到函数逼近
-
高维状态空间挑战
-
线性函数逼近:V(s;w) 与 Q(s,a;w)
-
算法升级:Sarsa/VFA、Q-learning/VFA
-
深度Q网络(DQN):经验回放与目标网络
第五部分:策略优化进阶
第9章 策略梯度方法
-
价值函数与直接策略优化的对比
-
策略梯度定理推导
-
REINFORCE算法(蒙特卡洛策略梯度)
第10章 Actor-Critic框架
-
策略-价值混合架构思想
-
基本Actor-Critic(QAC)
-
优势函数(Advantage)改进(A2C)
-
重要性采样与异策略AC(Off-policy AC)
-
确定性策略梯度(DPG)
第11章 近端策略优化(PPO)
-
重要性采样比率裁剪
-
目标函数设计与实践优势
第12章 直接策略优化(DPO)
-
基于能量模型的目标函数
-
对比PPO的改进动机
第13章 群体相对策略优化(GRPO)
-
多智能体协作场景下的策略优化
-
相对奖励设计与分布式训练
【强化学习的数学原理】课程:从零开始到透彻理解(完结)_哔哩哔哩_bilibili
【莫烦Python】强化学习 Reinforcement Learning_哔哩哔哩_bilibili
Reinforcement Learning | GeeksforGeeks
What is Reinforcement Learning? -- Overview of How it Works | Synopsys
我愿称李宏毅强化学习为天花板课程!简单易懂!清晰明了的 PPO算法强化学习入门教程!深度强化学习、人工智能、神经网络_哔哩哔哩_bilibili
【子豪兄】深度强化学习 Deep Reinforcement Learning_哔哩哔哩_bilibili
【强化学习】2025最新!终于有油管大神把强化学习做成动画啦!原理解析+实战操作!草履虫都能学会!------人工智能/强化学习/机器学习_哔哩哔哩_bilibili