sheng的学习笔记-AI-时序差分学习

AI目录:sheng的学习笔记-AI目录-CSDN博客

强化学习:sheng的学习笔记-AI-强化学习(Reinforcement Learning, RL)-CSDN博客

蒙特卡罗强化学习: sheng的学习笔记-AI-蒙特卡罗强化学习-CSDN博客

什么是时序差分学习

时序差分学习是强化学习中的免模型学习

免模型学习:在现实的强化学习任务中,环境的转移概率、奖赏函数往往很难得知,甚至很难知道环境中一共有多少状态.若学习算法不依赖于环境建模,则称为"免模型学习"

蒙特卡罗强化学习在一个完整的采样轨迹完成后再对所有的状态-动作对进行更新,因为在"完整"的采样轨迹后才更新,所以速度比较慢。

值函数估计

为了提升速度,可以基于动态规划的策略迭代和值迭代算法在每执行一步策略后就进行值函数更新

就是 目标值 = 上一步的目标值 + 本次奖赏 ,这种算法比 目标值 = (所有奖励的和)/ m 会快

Sarsa算法

每执行一步策略就更新一次值函数估计,于是得到图16.12的算法。该算法由于每次更新值函数需知道前一步的状态(state)、前一步的动作(action)、奖赏值(reward)、当前状态(state)、将要执行的动作(action),由此得名为Sarsa算法

Q-学习(Q-learning)算法

相关推荐
MARS_AI_39 分钟前
云蝠智能VoiceAgent:AI赋能售后服务场景的创新实践
人工智能·语言模型·自然语言处理·人机交互·信息与通信
全星00739 分钟前
从合规到卓越:全星QMS如何成为制造企业的质量战略引擎
人工智能
桃源学社(接毕设)44 分钟前
基于人工智能和物联网融合跌倒监控系统(LW+源码+讲解+部署)
人工智能·python·单片机·yolov8
CCF_NOI.1 小时前
解锁聚变密码:从微观世界到能源新未来
大数据·人工智能·计算机·聚变
张3蜂1 小时前
深度解读 Browser-Use:让 AI 驱动浏览器自动化成为可能
运维·人工智能·自动化
yunhuibin1 小时前
pycharm2025导入anaconda创建的各个AI环境
人工智能·python
学术小白人1 小时前
会议征稿2025年能源互联网与电气工程国际学术会议(EIEE 2025)
人工智能·机器人·能源
2502_927161281 小时前
DAY 40 训练和测试的规范写法
人工智能·深度学习·机器学习
Swaggy T2 小时前
自动驾驶轨迹规划算法——Apollo EM Planner
人工智能·算法·自动驾驶
gptplusplus2 小时前
超越“调参”:从系统架构师视角,重构 AI 智能体的设计范式
人工智能·重构·系统架构