深度强化学习第 5 章 SARSA 算法

Chen_Chance2023-10-21 16:26

上一章介绍了 Q 学习的表格形式和神经网络形式（即 DQN）。 TD 算法是一大类算法的总称。上一章用的 Q 学习是一种 TD 算法， Q 学习的目的是学习最优动作价值函数 Q ⋆ Q_⋆ Q⋆

本章介绍 SARSA，它也是一种 TD 算法， SARSA 的目的是学习动作价值函数 Q π ( s , a ) Q_π(s,a) Qπ(s,a)。

5.1表格形式的SARSA

5.1.1推导表格形式的 SARSA 学习算法

5.2神经网络形式的SARSA

5.3多步TD目标

5.4蒙特卡洛与自举

上一篇：设计模式之享元模式

下一篇：DevExpress WPF Pivot Grid组件，可轻松实现多维数据分析！（二）

热门推荐

01如何新建文件夹？电脑新建文件夹的4种方法 02GitHub 镜像站点 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 06微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08AI科技热点日报 | 2026年07月01日 092026上半年大模型全景技术解读：推理融合、Agent 爆发与多模态统一 102026 年 AI 大模型 & AI 编程工具实战全总结