深度强化学习 第 5 章 SARSA 算法

上一章介绍了 Q 学习的表格形式和神经网络形式(即 DQN)。 TD 算法是一大类算法的总称。上一章用的 Q 学习是一种 TD 算法, Q 学习的目的是学习最优动作价值函数 Q ⋆ Q_⋆ Q⋆

本章介绍 SARSA,它也是一种 TD 算法, SARSA 的目的是学习动作价值函数 Q π ( s , a ) Q_π(s,a) Qπ(s,a)。

5.1表格形式的SARSA

5.1.1推导表格形式的 SARSA 学习算法

5.2神经网络形式的SARSA

5.3多步TD目标

5.4蒙特卡洛与自举

相关推荐
IOT.FIVE.NO.13 分钟前
2026-05-30-Codex更新后对话消失和沙盒失效:适用人群、问题背景、解决方式与原因分析
人工智能·windows
yubo05094 分钟前
计算机视觉第八课:形状识别(自动认出 圆形、方形、三角形)
人工智能·opencv·计算机视觉
阿部多瑞 ABU7 分钟前
AI红队攻防演化史(2023-2026):从虚拟角色到RLHF劫持——所有攻击方法全景总结与最新趋势分析
网络·人工智能·安全
AsiaSun.15 分钟前
我把 Codex 协作经验,整理成了一套公共 Skills
人工智能
Swift社区22 分钟前
具身智能:让AI真正“理解”物理世界
人工智能
落叶无情23 分钟前
ICEF 框架+框架动态补全机制:从零构建虚构地缘冲突分析模型
人工智能
爱分享的康康25 分钟前
低成本自动驾驶数据采集设备理性分析:康谋入门套装适配性解析
大数据·人工智能
深小乐25 分钟前
个人知识库,折腾一圈后我还是选了 Obsidian
人工智能
_Aaron___32 分钟前
Spring AI 接入 MCP:工具调用不是“能调就行”,关键是边界治理
java·人工智能·spring
YueJoy.AI33 分钟前
创业团队如何进行绩效管理
人工智能·ai·语言模型