Value-Based Reinforcement Learning(2)

Temporal Difference (TD) Learning

上节已经提到了如果我们有DQN,那么agent就知道每一步动作如何做了,那么DQN如何训练那?这里面使用TD算法。

简略分析:

的估计

的估计

所以:

Deep Reinforcement Learning :

Prediction :

TD Target :

Loss :

Gradient Desent : ,做梯度下降是为了让loss减少

相关推荐
zhangfeng113314 分钟前
利用WorkBuddy 国产小龙虾 制作视频 1 Remotion 方案 2 备选:moviepy 方案渲染视频
人工智能
冬奇Lab24 分钟前
RAG 系列(十四):Self-RAG——让模型决定要不要检索
人工智能·llm
chatexcel26 分钟前
AI工具里的知识库是什么?定义、原理、场景与ChatExcel示例解析
人工智能
冬奇Lab33 分钟前
一天一个开源项目(第99篇):AiToEarn - 用 AI 把内容变成收入的一站式平台
人工智能·开源·资讯
千叶风行40 分钟前
Text-to-SQL 技术设计与注意事项
前端·人工智能·后端
夜郎king40 分钟前
Spring AI 对接大模型开发易错点总结与实战解决办法
java·人工智能·spring
从孑开始1 小时前
manyspeech-cli 语音识别命令行工具
人工智能·语音识别·工具·asr
hans汉斯1 小时前
计算机科学与应用|基于大模型深度语义理解的智能内容纠错系统
人工智能·计算机视觉·视觉检测·数据·病虫害检测
Mr数据杨1 小时前
【CanMV K210】视觉识别 颜色阈值分割与色块检测实验
人工智能·硬件开发·canmv k210
Bruce_Liuxiaowei1 小时前
OpenClaw 网关启动失败:配置文件权限错误的排查与修复
人工智能·智能体