DDPG算法

红烧code2023-09-07 15:01

DDPG算法

全称Deep Deterministic Policy Gradient，是对DPG、DQN的继承、发展和改进

对DQN算法：使其能够适用于连续动作空间
对DPG算法：使用神经网络来拟合函数

算法介绍

核心：确定性策略梯度理论 ，在DPG算法中被提出，原论文，推导过程相当复杂，我也不大能看懂，总之用就完事了😂

训练流程：参考了DQN，因此属于Off Policy算法，使用了经验回放缓存，引入了actor target和critic target

算法伪代码

上一篇：详解html中的doctype

下一篇：【洛谷 P1328】[NOIP2014 提高组] 生活大爆炸版石头剪刀布题解（模拟+向量）

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05AI科技热点日报 | 2026年07月01日 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 09CC-Switch & Claude 基于 Linux 服务器安装使用指南 10幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南