【强化学习】【1】【PyTorch】【强化学习简介优化框架】

前言

强化学习(Reinforcement Learning, RL)作为人工智能领域最具前景的分支之一,通过智能体与环境的交互式学习机制,正在重塑决策智能系统的技术范式。为帮助学习者系统掌握该领域的核心知识与实践技能,本课程整合西湖大学赵世钰教授权威课程体系、Python代码驱动的实战项目以及模块化知识图谱(ShareNote),构建"理论-算法-实现"三位一体的强化学习教学框架.

整个课程分为5部分,大概一个月左右.


第一部分:基础理论

第1章 强化学习核心概念与MDP框架

  • 核心三要素:状态(State)、动作(Action)、奖励(Reward)

  • 延伸概念:回合(Episode)、策略(Policy)、回报(Return)、折扣因子

  • 案例教学:网格世界(Grid-World)示例

  • 数学框架:马尔可夫决策过程(MDP)形式化定义

第2章 贝尔曼方程与策略评估

  • 状态值函数(State Value Function)

  • 贝尔曼期望方程推导

  • 策略评估算法(迭代法解贝尔曼方程)

第3章 最优性与贝尔曼最优方程

  • 最优策略存在性定理

  • 贝尔曼最优方程推导

  • 不动点定理与方程求解意义

  • 算法可行性分析(值迭代思想铺垫)


第二部分:基于模型的规划算法

第4章 经典动态规划算法

  • 值迭代(Value Iteration)算法

  • 策略迭代(Policy Iteration)算法

  • 截断策略迭代(Truncated PI)

  • 环境模型(Environment Model)依赖性分析


第三部分:无模型学习基础

第5章 蒙特卡洛方法

  • 无模型学习核心思想

  • 采样均值估计原理

  • 算法演进:MC Basic → MC Exploring Starts → MC ε-Greedy

第6章 增量式学习与随机优化

  • 非增量到增量式学习的必要性

  • 随机近似理论:Robbins-Monro算法

  • 优化视角:SGD vs BGD vs Mini-batch GD

  • 增量式更新的工程优势

第7章 时序差分(TD)学习与经典算法

  • TD(0) 算法原理(值函数估计)

  • Sarsa:同策略TD动作值学习

  • Q-learning:异策略最优值学习

  • 同策略(On-policy) vs 异策略(Off-policy)对比


第四部分:函数逼近与深度强化学习

第8章 从表格表示到函数逼近

  • 高维状态空间挑战

  • 线性函数逼近:V(s;w) 与 Q(s,a;w)

  • 算法升级:Sarsa/VFA、Q-learning/VFA

  • 深度Q网络(DQN):经验回放与目标网络


第五部分:策略优化进阶

第9章 策略梯度方法

  • 价值函数与直接策略优化的对比

  • 策略梯度定理推导

  • REINFORCE算法(蒙特卡洛策略梯度)

第10章 Actor-Critic框架

  • 策略-价值混合架构思想

  • 基本Actor-Critic(QAC)

  • 优势函数(Advantage)改进(A2C)

  • 重要性采样与异策略AC(Off-policy AC)

  • 确定性策略梯度(DPG)

第11章 近端策略优化(PPO)

  • 重要性采样比率裁剪

  • 目标函数设计与实践优势

第12章 直接策略优化(DPO)

  • 基于能量模型的目标函数

  • 对比PPO的改进动机

第13章 群体相对策略优化(GRPO)

  • 多智能体协作场景下的策略优化

  • 相对奖励设计与分布式训练


【强化学习的数学原理】课程:从零开始到透彻理解(完结)_哔哩哔哩_bilibili

【莫烦Python】强化学习 Reinforcement Learning_哔哩哔哩_bilibili

Reinforcement Learning | GeeksforGeeks

What is Reinforcement Learning? -- Overview of How it Works | Synopsys

IBM Developer

我愿称李宏毅强化学习为天花板课程!简单易懂!清晰明了的 PPO算法强化学习入门教程!深度强化学习、人工智能、神经网络_哔哩哔哩_bilibili

【子豪兄】深度强化学习 Deep Reinforcement Learning_哔哩哔哩_bilibili

【强化学习】2025最新!终于有油管大神把强化学习做成动画啦!原理解析+实战操作!草履虫都能学会!------人工智能/强化学习/机器学习_哔哩哔哩_bilibili

相关推荐
夏鹏今天学习了吗18 分钟前
【LeetCode热题100(82/100)】单词拆分
算法·leetcode·职场和发展
mit6.8241 小时前
mysql exe
算法
2501_901147831 小时前
动态规划在整除子集问题中的应用与高性能实现分析
算法·职场和发展·动态规划
中草药z2 小时前
【嵌入模型】概念、应用与两大 AI 开源社区(Hugging Face / 魔塔)
人工智能·算法·机器学习·数据集·向量·嵌入模型
知乎的哥廷根数学学派2 小时前
基于数据驱动的自适应正交小波基优化算法(Python)
开发语言·网络·人工智能·pytorch·python·深度学习·算法
ADI_OP2 小时前
ADAU1452的开发教程10:逻辑算法模块
算法·adi dsp中文资料·adi dsp·adi音频dsp·adi dsp开发教程·sigmadsp的开发详解
xingzhemengyou13 小时前
C语言 查找一个字符在字符串中第i次出现的位置
c语言·算法
小六子成长记4 小时前
【C++】:搜索二叉树的模拟实现
数据结构·c++·算法
汉克老师5 小时前
GESP2025年9月认证C++二级真题与解析(编程题1(优美的数字))
c++·算法·整除·枚举算法·求余·拆数
Zevalin爱灰灰5 小时前
现代控制理论——第二章 系统状态空间表达式的解
线性代数·算法·现代控制