DDPG算法

DDPG算法

全称Deep Deterministic Policy Gradient,是对DPG、DQN的继承、发展和改进

  • 对DQN算法:使其能够适用于连续动作空间
  • 对DPG算法:使用神经网络来拟合函数

算法介绍

核心:确定性策略梯度理论 ,在DPG算法中被提出,原论文,推导过程相当复杂,我也不大能看懂,总之用就完事了😂

训练流程:参考了DQN,因此属于Off Policy算法,使用了经验回放缓存,引入了actor target和critic target

算法伪代码

相关推荐
偷吃的耗子1 分钟前
[CNN算法理解]:二、卷积层(从生活实例到技术细节)
算法·cnn·生活
2301_790300962 分钟前
C++与Docker集成开发
开发语言·c++·算法
TracyCoder1233 分钟前
LeetCode Hot100(22/100)——141. 环形链表
算法·leetcode·链表
一起养小猫7 分钟前
Flutter for OpenHarmony 进阶:递归算法与数学证明深度解析
算法·flutter
赛博云推-Twitter热门霸屏工具8 分钟前
Twitter 搜索霸屏的关键词工程方法——从算法理解到赛博云推的系统化执行
算法·twitter·dreamweaver
罗湖老棍子21 分钟前
【区间DP】括号序列:如何求解最长合法子序列?(POJ 2955)
算法·动态规划·区间dp·区间动态规划·端点匹配型
王德博客25 分钟前
【实现常见排序算法】直接插入排序的算法思想
数据结构·算法·排序算法
m0_5648768426 分钟前
分布式训练DP与DDP
人工智能·深度学习·算法
纤纡.27 分钟前
逻辑回归实战进阶:交叉验证与采样技术破解数据痛点(一)
算法·机器学习·逻辑回归
重生之后端学习29 分钟前
146. LRU 缓存
java·数据结构·算法·leetcode·职场和发展