sheng的学习笔记-AI-时序差分学习

AI目录:sheng的学习笔记-AI目录-CSDN博客

强化学习:sheng的学习笔记-AI-强化学习(Reinforcement Learning, RL)-CSDN博客

蒙特卡罗强化学习: sheng的学习笔记-AI-蒙特卡罗强化学习-CSDN博客

什么是时序差分学习

时序差分学习是强化学习中的免模型学习

免模型学习:在现实的强化学习任务中,环境的转移概率、奖赏函数往往很难得知,甚至很难知道环境中一共有多少状态.若学习算法不依赖于环境建模,则称为"免模型学习"

蒙特卡罗强化学习在一个完整的采样轨迹完成后再对所有的状态-动作对进行更新,因为在"完整"的采样轨迹后才更新,所以速度比较慢。

值函数估计

为了提升速度,可以基于动态规划的策略迭代和值迭代算法在每执行一步策略后就进行值函数更新

就是 目标值 = 上一步的目标值 + 本次奖赏 ,这种算法比 目标值 = (所有奖励的和)/ m 会快

Sarsa算法

每执行一步策略就更新一次值函数估计,于是得到图16.12的算法。该算法由于每次更新值函数需知道前一步的状态(state)、前一步的动作(action)、奖赏值(reward)、当前状态(state)、将要执行的动作(action),由此得名为Sarsa算法

Q-学习(Q-learning)算法

相关推荐
MUTA️19 分钟前
ultalytics代码中模型接收多层输入的处理
深度学习·算法·yolo·机器学习·计算机视觉
weixin_4082663421 分钟前
深度学习-分布式训练机制
人工智能·分布式·深度学习
struggle202531 分钟前
AgenticSeek开源的完全本地的 Manus AI。无需 API,享受一个自主代理,它可以思考、浏览 Web 和编码,只需支付电费。
人工智能·开源·自动化
Panesle33 分钟前
阿里开源通义万相Wan2.1-VACE-14B:用于视频创建和编辑的一体化模型
人工智能·开源·大模型·文生视频·多模态·生成模型
QQ2740287561 小时前
Kite AI 自动机器人部署教程
linux·运维·服务器·人工智能·机器人·web3
巷9551 小时前
OpenCV光流估计:原理、实现与应用
人工智能·opencv·计算机视觉
说私域1 小时前
基于开源AI智能名片链动2+1模式S2B2C商城小程序的“互相拆台”式宣传策略研究
人工智能·小程序·开源·零售
sbc-study1 小时前
生成对抗网络(Generative Adversarial Networks ,GAN)
人工智能·神经网络·生成对抗网络
m0_620607812 小时前
机器学习——集成学习基础
人工智能·机器学习·集成学习
weixin_549808362 小时前
如何使用易路iBuilder智能体平台快速安全深入实现AI HR【实用帖】
人工智能·安全