Value-Based Reinforcement Learning(2)

Temporal Difference (TD) Learning

上节已经提到了如果我们有DQN,那么agent就知道每一步动作如何做了,那么DQN如何训练那?这里面使用TD算法。

简略分析:

的估计

的估计

所以:

Deep Reinforcement Learning :

Prediction :

TD Target :

Loss :

Gradient Desent : ,做梯度下降是为了让loss减少

相关推荐
唐天下文化1 小时前
甜心速达智慧潮流精选超市、即时零售新业态,打造可持续发展商业模式
大数据·人工智能·零售
有杨既安然2 小时前
Python自动化办公
开发语言·人工智能·深度学习·机器学习
何似在人间5752 小时前
SpringAI+DeepSeek大模型应用开发——1 AI概述
java·人工智能·spring·springai
科技小E2 小时前
5G时代,视频分析设备平台EasyCVR实现通信基站远程安全便捷管控
大数据·网络·人工智能·音视频·安防监控
keepython2 小时前
【n8n docker 部署的代理问题】解决n8n部署无法访问openai等外国大模型厂商的api
运维·人工智能·docker·容器
訾博ZiBo3 小时前
AI日报 - 2025年4月18日
人工智能
胡萝卜不甜3 小时前
智能语音识别+1.2用SAPI实现文本转语音(100%教会)
人工智能·语音识别
小样vvv3 小时前
【AI】IDEA 集成 AI 工具的背景与意义
java·人工智能·intellij-idea
刘大猫263 小时前
Arthas watch (方法执行数据观测)
人工智能·数据分析·图像识别
jndingxin3 小时前
OpenCV 图形API(39)图像滤波----同时计算图像在 X 和 Y 方向上的一阶导数函数SobelXY()
人工智能·opencv·计算机视觉