Value-Based Reinforcement Learning(2)

Temporal Difference (TD) Learning

上节已经提到了如果我们有DQN,那么agent就知道每一步动作如何做了,那么DQN如何训练那?这里面使用TD算法。

简略分析:

的估计

的估计

所以:

Deep Reinforcement Learning :

Prediction :

TD Target :

Loss :

Gradient Desent : ,做梯度下降是为了让loss减少

相关推荐
真·skysys17 分钟前
On-Policy Distillation
人工智能·深度学习·机器学习
学弟22 分钟前
【内涵】深度学习中的三种变量及pytorch中对应的三种tensor
人工智能·pytorch·python
xwz小王子33 分钟前
多视角视频扩散策略:一种三维时空-觉察视频动作模型
人工智能·音视频
我是无敌小恐龙34 分钟前
Java SE 零基础入门Day01 超详细笔记(开发前言+环境搭建+基础语法)
java·开发语言·人工智能·opencv·spring·机器学习
Ww.xh40 分钟前
规避GCJ02偏移的坐标统一方案
人工智能
深圳市九鼎创展科技1 小时前
MT8883 vs RK3588 开发板全面对比:选型与场景落地指南
大数据·linux·人工智能·嵌入式硬件·ubuntu
CareyWYR1 小时前
AI Coding 订阅的集体退潮:从狂欢到收紧,中间只隔了一个季度
人工智能
NineData1 小时前
NineData 亮相香港国际创科展 InnoEX 2026,以 AI 加速布局全球市场
运维·数据库·人工智能·ninedata·新闻资讯·玖章算术
IT_陈寒1 小时前
Vite的热更新突然失效,原来是因为这个配置
前端·人工智能·后端