Temporal Difference (TD) Learning
上节已经提到了如果我们有DQN,那么agent就知道每一步动作如何做了,那么DQN如何训练那?这里面使用TD算法。
简略分析:

是
的估计
是
的估计
所以:
Deep Reinforcement Learning : 
Prediction : 
TD Target : 
Loss : 
Gradient Desent :
,做梯度下降是为了让loss减少
Temporal Difference (TD) Learning
上节已经提到了如果我们有DQN,那么agent就知道每一步动作如何做了,那么DQN如何训练那?这里面使用TD算法。
简略分析:

是
的估计
是
的估计
所以:
Deep Reinforcement Learning : 
Prediction : 
TD Target : 
Loss : 
Gradient Desent :
,做梯度下降是为了让loss减少