【强化学习】【1】【PyTorch】【强化学习简介优化框架】

前言

强化学习(Reinforcement Learning, RL)作为人工智能领域最具前景的分支之一,通过智能体与环境的交互式学习机制,正在重塑决策智能系统的技术范式。为帮助学习者系统掌握该领域的核心知识与实践技能,本课程整合西湖大学赵世钰教授权威课程体系、Python代码驱动的实战项目以及模块化知识图谱(ShareNote),构建"理论-算法-实现"三位一体的强化学习教学框架.

整个课程分为5部分,大概一个月左右.


第一部分:基础理论

第1章 强化学习核心概念与MDP框架

  • 核心三要素:状态(State)、动作(Action)、奖励(Reward)

  • 延伸概念:回合(Episode)、策略(Policy)、回报(Return)、折扣因子

  • 案例教学:网格世界(Grid-World)示例

  • 数学框架:马尔可夫决策过程(MDP)形式化定义

第2章 贝尔曼方程与策略评估

  • 状态值函数(State Value Function)

  • 贝尔曼期望方程推导

  • 策略评估算法(迭代法解贝尔曼方程)

第3章 最优性与贝尔曼最优方程

  • 最优策略存在性定理

  • 贝尔曼最优方程推导

  • 不动点定理与方程求解意义

  • 算法可行性分析(值迭代思想铺垫)


第二部分:基于模型的规划算法

第4章 经典动态规划算法

  • 值迭代(Value Iteration)算法

  • 策略迭代(Policy Iteration)算法

  • 截断策略迭代(Truncated PI)

  • 环境模型(Environment Model)依赖性分析


第三部分:无模型学习基础

第5章 蒙特卡洛方法

  • 无模型学习核心思想

  • 采样均值估计原理

  • 算法演进:MC Basic → MC Exploring Starts → MC ε-Greedy

第6章 增量式学习与随机优化

  • 非增量到增量式学习的必要性

  • 随机近似理论:Robbins-Monro算法

  • 优化视角:SGD vs BGD vs Mini-batch GD

  • 增量式更新的工程优势

第7章 时序差分(TD)学习与经典算法

  • TD(0) 算法原理(值函数估计)

  • Sarsa:同策略TD动作值学习

  • Q-learning:异策略最优值学习

  • 同策略(On-policy) vs 异策略(Off-policy)对比


第四部分:函数逼近与深度强化学习

第8章 从表格表示到函数逼近

  • 高维状态空间挑战

  • 线性函数逼近:V(s;w) 与 Q(s,a;w)

  • 算法升级:Sarsa/VFA、Q-learning/VFA

  • 深度Q网络(DQN):经验回放与目标网络


第五部分:策略优化进阶

第9章 策略梯度方法

  • 价值函数与直接策略优化的对比

  • 策略梯度定理推导

  • REINFORCE算法(蒙特卡洛策略梯度)

第10章 Actor-Critic框架

  • 策略-价值混合架构思想

  • 基本Actor-Critic(QAC)

  • 优势函数(Advantage)改进(A2C)

  • 重要性采样与异策略AC(Off-policy AC)

  • 确定性策略梯度(DPG)

第11章 近端策略优化(PPO)

  • 重要性采样比率裁剪

  • 目标函数设计与实践优势

第12章 直接策略优化(DPO)

  • 基于能量模型的目标函数

  • 对比PPO的改进动机

第13章 群体相对策略优化(GRPO)

  • 多智能体协作场景下的策略优化

  • 相对奖励设计与分布式训练


【强化学习的数学原理】课程:从零开始到透彻理解(完结)_哔哩哔哩_bilibili

【莫烦Python】强化学习 Reinforcement Learning_哔哩哔哩_bilibili

Reinforcement Learning | GeeksforGeeks

What is Reinforcement Learning? -- Overview of How it Works | Synopsys

IBM Developer

我愿称李宏毅强化学习为天花板课程!简单易懂!清晰明了的 PPO算法强化学习入门教程!深度强化学习、人工智能、神经网络_哔哩哔哩_bilibili

【子豪兄】深度强化学习 Deep Reinforcement Learning_哔哩哔哩_bilibili

【强化学习】2025最新!终于有油管大神把强化学习做成动画啦!原理解析+实战操作!草履虫都能学会!------人工智能/强化学习/机器学习_哔哩哔哩_bilibili

相关推荐
斯汤雷15 分钟前
Matlab绘图案例,设置图片大小,坐标轴比例为黄金比
数据库·人工智能·算法·matlab·信息可视化
云 无 心 以 出 岫1 小时前
贪心算法QwQ
数据结构·c++·算法·贪心算法
俏布斯1 小时前
算法日常记录
java·算法·leetcode
独好紫罗兰1 小时前
洛谷题单3-P5719 【深基4.例3】分类平均-python-流程图重构
开发语言·python·算法
SheepMeMe2 小时前
蓝桥杯2024省赛PythonB组——日期问题
python·算法·蓝桥杯
随便昵称2 小时前
蓝桥杯专项复习——前缀和和差分
c++·算法·前缀和·蓝桥杯
脑子慢且灵2 小时前
蓝桥杯冲刺:一维前缀和
算法·leetcode·职场和发展·蓝桥杯·动态规划·一维前缀和
姜威鱼2 小时前
蓝桥杯python编程每日刷题 day 21
数据结构·算法·蓝桥杯
CYRUS STUDIO2 小时前
Unidbg Trace 反 OLLVM 控制流平坦化(fla)
android·汇编·算法·网络安全·逆向·ollvm
ゞ 正在缓冲99%…2 小时前
leetcode22.括号生成
java·算法·leetcode·回溯