DDPG算法

DDPG算法

全称Deep Deterministic Policy Gradient,是对DPG、DQN的继承、发展和改进

  • 对DQN算法:使其能够适用于连续动作空间
  • 对DPG算法:使用神经网络来拟合函数

算法介绍

核心:确定性策略梯度理论 ,在DPG算法中被提出,原论文,推导过程相当复杂,我也不大能看懂,总之用就完事了😂

训练流程:参考了DQN,因此属于Off Policy算法,使用了经验回放缓存,引入了actor target和critic target

算法伪代码

相关推荐
我是苏苏2 小时前
C#高级:程序查询写法性能优化提升策略(附带Gzip算法示例)
开发语言·算法·c#
sali-tec3 小时前
C# 基于halcon的视觉工作流-章56-彩图转云图
人工智能·算法·计算机视觉·c#
黑岚樱梦7 小时前
代码随想录打卡day23:435.无重叠区间
算法
Kuo-Teng7 小时前
Leetcode438. 找到字符串中所有字母异位词
java·算法·leetcode
gihigo19988 小时前
MATLAB使用遗传算法解决车间资源分配动态调度问题
算法·matlab
墨染点香8 小时前
LeetCode 刷题【138. 随机链表的复制】
算法·leetcode·链表
却道天凉_好个秋8 小时前
目标检测算法与原理(一):迁移学习
算法·目标检测·迁移学习
兮山与10 小时前
算法24.0
算法
晓北斗NorSnow10 小时前
机器学习核心算法与学习资源解析
学习·算法·机器学习