Value-Based Reinforcement Learning（2）

Happy_Traveller2024-05-27 8:31

Temporal Difference （TD） Learning

上节已经提到了如果我们有DQN，那么agent就知道每一步动作如何做了，那么DQN如何训练那？这里面使用TD算法。

简略分析：

是的估计

是的估计

所以：

Deep Reinforcement Learning :

Prediction ：

TD Target :

Loss ：

Gradient Desent : ，做梯度下降是为了让loss减少

上一篇：【挖金子game】

下一篇：使用pyqt绘制一个爱心！

热门推荐

01GitHub 镜像站点 02幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 03AI科技热点日报 | 2026年07月01日 042026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 05GPT-5.5 对比 GPT-5.6 Sol、Terra、Luna：官方性能数据与选型分析 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 092026 AI 编程工具终极实战指南：Cursor vs Claude Code vs Copilot，开发者该怎么选？10几个好用的ip纯净度检测网站