Value-Based Reinforcement Learning(2)

Temporal Difference (TD) Learning

上节已经提到了如果我们有DQN,那么agent就知道每一步动作如何做了,那么DQN如何训练那?这里面使用TD算法。

简略分析:

的估计

的估计

所以:

Deep Reinforcement Learning :

Prediction :

TD Target :

Loss :

Gradient Desent : ,做梯度下降是为了让loss减少

相关推荐
CoovallyAIHub1 天前
告别等待!十条高效PyTorch数据增强流水线,让你的GPU不再"饥饿"
深度学习·算法·计算机视觉
共绩算力1 天前
OpenAI Whisper 语音识别模型:技术与应用全面分析
人工智能·whisper·语音识别·共绩算力
工藤学编程1 天前
零基础学AI大模型之Stream流式输出实战
人工智能
不良人龍木木1 天前
机器学习-常用库
人工智能·机器学习
罗橙7号1 天前
【pyTorch】关于PyTorch的高级索引机制理解
人工智能·pytorch·python
rengang661 天前
09-随机森林:介绍集成学习中通过多决策树提升性能的算法
人工智能·算法·随机森林·机器学习·集成学习
CoovallyAIHub1 天前
量子计算迎来诺奖时刻!谷歌赢麻了
深度学习·算法·计算机视觉
zskj_qcxjqr1 天前
数字大健康浪潮下:智能设备重构人力生态,传统技艺如何新生?
大数据·人工智能·科技·机器人
动能小子ohhh1 天前
AI智能体(Agent)大模型入门【9】--如何在pycharm等其他编译软件调用ocr工具【只写后端代码不演示】
人工智能·python·深度学习·机器学习·pycharm·ocr
mit6.8241 天前
[Tongyi] 工具集成 | run_react_infer
人工智能·深度学习·算法