sheng的学习笔记-AI-时序差分学习

AI目录:sheng的学习笔记-AI目录-CSDN博客

强化学习:sheng的学习笔记-AI-强化学习(Reinforcement Learning, RL)-CSDN博客

蒙特卡罗强化学习: sheng的学习笔记-AI-蒙特卡罗强化学习-CSDN博客

什么是时序差分学习

时序差分学习是强化学习中的免模型学习

免模型学习:在现实的强化学习任务中,环境的转移概率、奖赏函数往往很难得知,甚至很难知道环境中一共有多少状态.若学习算法不依赖于环境建模,则称为"免模型学习"

蒙特卡罗强化学习在一个完整的采样轨迹完成后再对所有的状态-动作对进行更新,因为在"完整"的采样轨迹后才更新,所以速度比较慢。

值函数估计

为了提升速度,可以基于动态规划的策略迭代和值迭代算法在每执行一步策略后就进行值函数更新

就是 目标值 = 上一步的目标值 + 本次奖赏 ,这种算法比 目标值 = (所有奖励的和)/ m 会快

Sarsa算法

每执行一步策略就更新一次值函数估计,于是得到图16.12的算法。该算法由于每次更新值函数需知道前一步的状态(state)、前一步的动作(action)、奖赏值(reward)、当前状态(state)、将要执行的动作(action),由此得名为Sarsa算法

Q-学习(Q-learning)算法

相关推荐
小毅&Nora36 分钟前
【人工智能】【AI外呼】系统架构设计与实现详解
人工智能·系统架构·ai外呼
jianqiang.xue1 小时前
别把 Scratch 当 “动画玩具”!图形化编程是算法思维的最佳启蒙
人工智能·算法·青少年编程·机器人·少儿编程
Coding茶水间2 小时前
基于深度学习的安全帽检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
图像处理·人工智能·深度学习·yolo·目标检测·计算机视觉
weixin79893765432...3 小时前
Vue + Express + DeepSeek 实现一个简单的对话式 AI 应用
vue.js·人工智能·express
nju_spy3 小时前
ToT与ReAct:突破大模型推理能力瓶颈
人工智能·大模型·大模型推理·tot思维树·react推理行动·人工智能决策·ai推理引擎
AI-智能3 小时前
别啃文档了!3 分钟带小白跑完 Dify 全链路:从 0 到第一个 AI 工作流
人工智能·python·自然语言处理·llm·embedding·agent·rag
y***86693 小时前
C机器学习.NET生态库应用
人工智能·机器学习
deng12044 小时前
基于LeNet-5的图像分类小结
人工智能·分类·数据挖掘
ChoSeitaku4 小时前
线代强化NO20|矩阵的相似与相似对角化|综合运用
线性代数·机器学习·矩阵
OpenAnolis小助手4 小时前
直播预告:LLM for AIOPS,是泡沫还是银弹? |《AI 进化论》第六期
人工智能