sheng的学习笔记-AI-时序差分学习

AI目录:sheng的学习笔记-AI目录-CSDN博客

强化学习:sheng的学习笔记-AI-强化学习(Reinforcement Learning, RL)-CSDN博客

蒙特卡罗强化学习: sheng的学习笔记-AI-蒙特卡罗强化学习-CSDN博客

什么是时序差分学习

时序差分学习是强化学习中的免模型学习

免模型学习:在现实的强化学习任务中,环境的转移概率、奖赏函数往往很难得知,甚至很难知道环境中一共有多少状态.若学习算法不依赖于环境建模,则称为"免模型学习"

蒙特卡罗强化学习在一个完整的采样轨迹完成后再对所有的状态-动作对进行更新,因为在"完整"的采样轨迹后才更新,所以速度比较慢。

值函数估计

为了提升速度,可以基于动态规划的策略迭代和值迭代算法在每执行一步策略后就进行值函数更新

就是 目标值 = 上一步的目标值 + 本次奖赏 ,这种算法比 目标值 = (所有奖励的和)/ m 会快

Sarsa算法

每执行一步策略就更新一次值函数估计,于是得到图16.12的算法。该算法由于每次更新值函数需知道前一步的状态(state)、前一步的动作(action)、奖赏值(reward)、当前状态(state)、将要执行的动作(action),由此得名为Sarsa算法

Q-学习(Q-learning)算法

相关推荐
audyxiao00117 分钟前
实验室ICPR 2024论文分享┆FPMT: 基于增强型半监督模型的交通事件检测(含详细视频解读)
大数据·人工智能·深度学习·机器学习·icpr
南 阳18 分钟前
3D生成技术再创新高:VAST发布Tripo 2.0,提升AI 3D生成新高度
人工智能·深度学习·transformer
你再说一遍?3641 小时前
李沐深度学习-多层感知机、模型选择、过拟合、欠拟合
人工智能·深度学习
云天徽上2 小时前
【机器学习案列】基于随机森林和xgboost的二手车价格回归预测
人工智能·随机森林·机器学习·回归
神州问学2 小时前
商汤SenseNova 5.5大模型的应用实践
人工智能
chao_6666662 小时前
【深度】为GPT-5而生的「草莓」模型!从快思考—慢思考到Self-play RL的强化学习框架
人工智能·深度学习·学习·机器学习
高垚淼2 小时前
如何构建智能应用:深入探索Langchain的强大功能与应用潜力
人工智能·python·langchain
深蓝易网3 小时前
为什么优秀的工厂更重视生产现场
大数据·运维·人工智能·数据分析·制造
小宇python3 小时前
机械学习和深度学习的区别
机器学习