sheng的学习笔记-AI-时序差分学习

AI目录:sheng的学习笔记-AI目录-CSDN博客

强化学习:sheng的学习笔记-AI-强化学习(Reinforcement Learning, RL)-CSDN博客

蒙特卡罗强化学习: sheng的学习笔记-AI-蒙特卡罗强化学习-CSDN博客

什么是时序差分学习

时序差分学习是强化学习中的免模型学习

免模型学习:在现实的强化学习任务中,环境的转移概率、奖赏函数往往很难得知,甚至很难知道环境中一共有多少状态.若学习算法不依赖于环境建模,则称为"免模型学习"

蒙特卡罗强化学习在一个完整的采样轨迹完成后再对所有的状态-动作对进行更新,因为在"完整"的采样轨迹后才更新,所以速度比较慢。

值函数估计

为了提升速度,可以基于动态规划的策略迭代和值迭代算法在每执行一步策略后就进行值函数更新

就是 目标值 = 上一步的目标值 + 本次奖赏 ,这种算法比 目标值 = (所有奖励的和)/ m 会快

Sarsa算法

每执行一步策略就更新一次值函数估计,于是得到图16.12的算法。该算法由于每次更新值函数需知道前一步的状态(state)、前一步的动作(action)、奖赏值(reward)、当前状态(state)、将要执行的动作(action),由此得名为Sarsa算法

Q-学习(Q-learning)算法

相关推荐
点云SLAM16 分钟前
PyTorch 中.backward() 详解使用
人工智能·pytorch·python·深度学习·算法·机器学习·机器人
androidstarjack22 分钟前
波士顿动力给机器人装上AI大脑,人类故意使绊子也不怕了!
人工智能·机器人
Learn Beyond Limits1 小时前
Transfer Learning|迁移学习
人工智能·python·深度学习·神经网络·机器学习·ai·吴恩达
程序员三明治1 小时前
三、神经网络
人工智能·深度学习·神经网络
hundaxxx3 小时前
自演化大语言模型的技术背景
人工智能
数智顾问3 小时前
【73页PPT】美的简单高效的管理逻辑(附下载方式)
大数据·人工智能·产品运营
love530love3 小时前
【保姆级教程】阿里 Wan2.1-T2V-14B 模型本地部署全流程:从环境配置到视频生成(附避坑指南)
人工智能·windows·python·开源·大模型·github·音视频
木头左3 小时前
结合机器学习的Backtrader跨市场交易策略研究
人工智能·机器学习·kotlin
Coovally AI模型快速验证3 小时前
3D目标跟踪重磅突破!TrackAny3D实现「类别无关」统一建模,多项SOTA达成!
人工智能·yolo·机器学习·3d·目标跟踪·无人机·cocos2d
研梦非凡3 小时前
CVPR 2025|基于粗略边界框监督的3D实例分割
人工智能·计算机网络·计算机视觉·3d