sheng的学习笔记-AI-时序差分学习

AI目录:sheng的学习笔记-AI目录-CSDN博客

强化学习:sheng的学习笔记-AI-强化学习(Reinforcement Learning, RL)-CSDN博客

蒙特卡罗强化学习: sheng的学习笔记-AI-蒙特卡罗强化学习-CSDN博客

什么是时序差分学习

时序差分学习是强化学习中的免模型学习

免模型学习:在现实的强化学习任务中,环境的转移概率、奖赏函数往往很难得知,甚至很难知道环境中一共有多少状态.若学习算法不依赖于环境建模,则称为"免模型学习"

蒙特卡罗强化学习在一个完整的采样轨迹完成后再对所有的状态-动作对进行更新,因为在"完整"的采样轨迹后才更新,所以速度比较慢。

值函数估计

为了提升速度,可以基于动态规划的策略迭代和值迭代算法在每执行一步策略后就进行值函数更新

就是 目标值 = 上一步的目标值 + 本次奖赏 ,这种算法比 目标值 = (所有奖励的和)/ m 会快

Sarsa算法

每执行一步策略就更新一次值函数估计,于是得到图16.12的算法。该算法由于每次更新值函数需知道前一步的状态(state)、前一步的动作(action)、奖赏值(reward)、当前状态(state)、将要执行的动作(action),由此得名为Sarsa算法

Q-学习(Q-learning)算法

相关推荐
J_Xiong01173 分钟前
【Agents篇】07:Agent 的行动模块——工具使用与具身执行
人工智能·ai agent
SEO_juper9 分钟前
13个不容错过的SEO技巧,让您的网站可见度飙升
人工智能·seo·数字营销
小瑞瑞acd10 分钟前
【小瑞瑞精讲】卷积神经网络(CNN):从入门到精通,计算机如何“看”懂世界?
人工智能·python·深度学习·神经网络·机器学习
CoderJia程序员甲20 分钟前
GitHub 热榜项目 - 日榜(2026-02-06)
人工智能·ai·大模型·github·ai教程
wukangjupingbb24 分钟前
AI多模态技术在创新药研发中的结合路径、机制及挑战
人工智能
CoderIsArt35 分钟前
三大主流智能体框架解析
人工智能
民乐团扒谱机39 分钟前
【微实验】机器学习之集成学习 GBDT和XGBoost 附 matlab仿真代码 复制即可运行
人工智能·机器学习·matlab·集成学习·xgboost·gbdt·梯度提升树
Coder_Boy_41 分钟前
Deeplearning4j+ Spring Boot 电商用户复购预测案例中相关概念
java·人工智能·spring boot·后端·spring
芷栀夏44 分钟前
CANN ops-math:揭秘异构计算架构下数学算子的低延迟高吞吐优化逻辑
人工智能·深度学习·神经网络·cann
L543414461 小时前
告别代码堆砌匠厂架构让你的系统吞吐量翻倍提升
大数据·人工智能·架构·自动化·rpa