Value-Based Reinforcement Learning(2)

Temporal Difference (TD) Learning

上节已经提到了如果我们有DQN,那么agent就知道每一步动作如何做了,那么DQN如何训练那?这里面使用TD算法。

简略分析:

的估计

的估计

所以:

Deep Reinforcement Learning :

Prediction :

TD Target :

Loss :

Gradient Desent : ,做梯度下降是为了让loss减少

相关推荐
IMER SIMPLE7 分钟前
人工智能-python-深度学习-神经网络-GoogLeNet
人工智能·python·深度学习
钮钴禄·爱因斯晨10 分钟前
深入剖析LLM:从原理到应用与挑战
开发语言·人工智能
InternLM13 分钟前
专为“超大模型而生”,新一代训练引擎 XTuner V1 开源!
人工智能·开源·xtuner·书生大模型·大模型训练框架·大模型预训练·大模型后训练
JT85839631 分钟前
AI GEO 优化能否快速提升网站在搜索引擎的排名?
人工智能·搜索引擎
幂律智能33 分钟前
吾律——让普惠法律服务走进生活
人工智能·经验分享
IT_陈寒38 分钟前
Java性能优化:从这8个关键指标开始,让你的应用提速50%
前端·人工智能·后端
yzx99101342 分钟前
构建未来:深度学习、嵌入式与安卓开发的融合创新之路
android·人工智能·深度学习
非门由也1 小时前
《sklearn机器学习——特征提取》
人工智能·机器学习·sklearn
机器学习之心2 小时前
基于CNN的航空发动机剩余寿命预测 (MATLAB实现)
人工智能·matlab·cnn
钝挫力PROGRAMER2 小时前
AI中的“预训练”是什么意思
人工智能