DDPG算法

DDPG算法

全称Deep Deterministic Policy Gradient,是对DPG、DQN的继承、发展和改进

  • 对DQN算法:使其能够适用于连续动作空间
  • 对DPG算法:使用神经网络来拟合函数

算法介绍

核心:确定性策略梯度理论 ,在DPG算法中被提出,原论文,推导过程相当复杂,我也不大能看懂,总之用就完事了😂

训练流程:参考了DQN,因此属于Off Policy算法,使用了经验回放缓存,引入了actor target和critic target

算法伪代码

相关推荐
zhurui_xiaozhuzaizai1 小时前
模型训练-关于token【低概率token, 高熵token】
人工智能·算法·自然语言处理
ThreeYear_s1 小时前
基于FPGA的PID算法学习———实现PID比例控制算法
学习·算法·fpga开发
子豪-中国机器人2 小时前
C++ 信息学奥赛总复习题答案解析
开发语言·c++·算法
弥彦_2 小时前
牛客round95D
c++·算法
强盛小灵通专卖员3 小时前
基于深度学习RT-DETR算法的盲人障碍物目标检测:提升盲人出行安全的智能化突破
深度学习·算法·目标检测·计算机视觉·rt-detr·小论文·计算机期刊
我不是小upper3 小时前
统计学核心概念与现实应用精解(偏机器学习)
算法·机器学习·统计学
Renlijuande3 小时前
百度之星2021——BD202104 萌新
算法
黑牛先生4 小时前
【数据结构】图算法(代码)
数据结构·算法
tt5555555555554 小时前
C++ 标准模板库(STL)详解文档
数据结构·c++·算法
Moonbit4 小时前
MoonBit Pearls Vol.01:使用MoonBit编写Pratt解析器
算法