目录

深度强化学习 第 5 章 SARSA 算法

上一章介绍了 Q 学习的表格形式和神经网络形式(即 DQN)。 TD 算法是一大类算法的总称。上一章用的 Q 学习是一种 TD 算法, Q 学习的目的是学习最优动作价值函数 Q ⋆ Q_⋆ Q⋆

本章介绍 SARSA,它也是一种 TD 算法, SARSA 的目的是学习动作价值函数 Q π ( s , a ) Q_π(s,a) Qπ(s,a)。

5.1表格形式的SARSA

5.1.1推导表格形式的 SARSA 学习算法

5.2神经网络形式的SARSA

5.3多步TD目标

5.4蒙特卡洛与自举

本文是转载文章,点击查看原文
如有侵权,请联系 xyy@jishuzhan.net 删除
相关推荐
思陌Ai算法定制11 分钟前
图神经网络+多模态:视频动作分割的轻量高效新解法
人工智能·深度学习·神经网络·机器学习·音视频·医学影像
rocksun27 分钟前
如何构建自己的简单AI代理来排除Kubernetes故障
人工智能·kubernetes
weixin_4452381233 分钟前
Tensorflow2实现: LSTM-火灾温度预测
人工智能·tensorflow·lstm
seaeress1 小时前
opencv(C++)处理图像颜色
c++·人工智能·opencv
一尘之中1 小时前
耳根圆通与禅定的交融与分野
人工智能
结冰架构2 小时前
【AI提示词】Emoji风格排版艺术与设计哲学
大数据·人工智能·ai·提示词
zandy10112 小时前
飞书集成衡石ChatBot实战:如何10分钟搭建一个业务数据问答机器人?
大数据·人工智能·机器人·飞书·chatbot·衡石科技
机器之心2 小时前
200B参数击败满血DeepSeek-R1,字节豆包推理模型Seed-Thinking-v1.5要来了
人工智能
James. 常德 student2 小时前
CV - 目标检测
人工智能·目标检测·计算机视觉
说私域2 小时前
开源AI大模型AI智能名片S2B2C商城小程序:科技浪潮下的商业新引擎
人工智能·小程序·开源·产品运营·零售