DDPG算法

DDPG算法

全称Deep Deterministic Policy Gradient,是对DPG、DQN的继承、发展和改进

  • 对DQN算法:使其能够适用于连续动作空间
  • 对DPG算法:使用神经网络来拟合函数

算法介绍

核心:确定性策略梯度理论 ,在DPG算法中被提出,原论文,推导过程相当复杂,我也不大能看懂,总之用就完事了😂

训练流程:参考了DQN,因此属于Off Policy算法,使用了经验回放缓存,引入了actor target和critic target

算法伪代码

相关推荐
报错小能手1 分钟前
数据结构 不带头结点的双向循环链表
数据结构·算法·链表
李玮豪Jimmy7 分钟前
Day26:贪心算法part4(452.用最少数量的箭引爆气球、435.无重叠区间、763.划分字母区间)
算法·贪心算法
秋深枫叶红8 分钟前
嵌入式第二十五篇——数据结构单向链表
c语言·数据结构·学习·算法
乌萨奇也要立志学C++8 分钟前
【洛谷】二分答案专题 3 道洛谷经典题(木材 / 砍树 / 跳石头)精讲
c++·算法
Liangwei Lin13 分钟前
洛谷 P1464 Function
算法
代码游侠17 分钟前
数据结构——单向链表
linux·开发语言·数据结构·学习·算法·链表
CoovallyAIHub18 分钟前
AI 项目如何避免“烂尾”?怎么选择才能让AI项目长期奔跑?
人工智能·算法·计算机视觉
qq_4308558829 分钟前
线性代数第一章第一课: 二阶三阶行列式
线性代数·算法·矩阵
星轨初途44 分钟前
C++的条件判断与循环及数组(算法竞赛类)
开发语言·c++·经验分享·笔记·算法