Temporal Difference (TD) Learning
上节已经提到了如果我们有DQN,那么agent就知道每一步动作如何做了,那么DQN如何训练那?这里面使用TD算法。
简略分析:
是的估计
是的估计
所以:
Deep Reinforcement Learning :
Prediction :
TD Target :
Loss :
Gradient Desent : ,做梯度下降是为了让loss减少
Temporal Difference (TD) Learning
上节已经提到了如果我们有DQN,那么agent就知道每一步动作如何做了,那么DQN如何训练那?这里面使用TD算法。
简略分析:
是的估计
是的估计
所以:
Deep Reinforcement Learning :
Prediction :
TD Target :
Loss :
Gradient Desent : ,做梯度下降是为了让loss减少