深度强化学习 第 5 章 SARSA 算法

上一章介绍了 Q 学习的表格形式和神经网络形式(即 DQN)。 TD 算法是一大类算法的总称。上一章用的 Q 学习是一种 TD 算法, Q 学习的目的是学习最优动作价值函数 Q ⋆ Q_⋆ Q⋆

本章介绍 SARSA,它也是一种 TD 算法, SARSA 的目的是学习动作价值函数 Q π ( s , a ) Q_π(s,a) Qπ(s,a)。

5.1表格形式的SARSA

5.1.1推导表格形式的 SARSA 学习算法

5.2神经网络形式的SARSA

5.3多步TD目标

5.4蒙特卡洛与自举

相关推荐
AKAMAI12 分钟前
数据孤岛破局之战 :跨业务分析的难题攻坚
运维·人工智能·云计算
Chicheng_MA17 分钟前
算能 CV184 智能相机整体方案介绍
人工智能·数码相机·算能
Element_南笙19 分钟前
吴恩达新课程:Agentic AI(笔记2)
数据库·人工智能·笔记·python·深度学习·ui·自然语言处理
倔强青铜三28 分钟前
苦练Python第69天:subprocess模块从入门到上瘾,手把手教你驯服系统命令!
人工智能·python·面试
Antonio91531 分钟前
【图像处理】rgb和srgb
图像处理·人工智能·数码相机
倔强青铜三33 分钟前
苦练 Python 第 68 天:并发狂飙!concurrent 模块让你 CPU 原地起飞
人工智能·python·面试
星期天要睡觉1 小时前
深度学习——循环神经网络(RNN)实战项目:基于PyTorch的文本情感分析
人工智能·python·rnn·深度学习·神经网络
2401_858869801 小时前
目标检测2
人工智能·目标检测·计算机视觉
ARM+FPGA+AI工业主板定制专家1 小时前
基于ZYNQ的目标检测算法硬件加速器优化设计
人工智能·目标检测·计算机视觉·fpga开发·自动驾驶