DDPG算法

DDPG算法

全称Deep Deterministic Policy Gradient,是对DPG、DQN的继承、发展和改进

  • 对DQN算法:使其能够适用于连续动作空间
  • 对DPG算法:使用神经网络来拟合函数

算法介绍

核心:确定性策略梯度理论 ,在DPG算法中被提出,原论文,推导过程相当复杂,我也不大能看懂,总之用就完事了😂

训练流程:参考了DQN,因此属于Off Policy算法,使用了经验回放缓存,引入了actor target和critic target

算法伪代码

相关推荐
那个村的李富贵15 小时前
CANN加速下的AIGC“即时翻译”:AI语音克隆与实时变声实战
人工智能·算法·aigc·cann
power 雀儿16 小时前
Scaled Dot-Product Attention 分数计算 C++
算法
琹箐16 小时前
最大堆和最小堆 实现思路
java·开发语言·算法
renhongxia117 小时前
如何基于知识图谱进行故障原因、事故原因推理,需要用到哪些算法
人工智能·深度学习·算法·机器学习·自然语言处理·transformer·知识图谱
坚持就完事了17 小时前
数据结构之树(Java实现)
java·算法
算法备案代理17 小时前
大模型备案与算法备案,企业该如何选择?
人工智能·算法·大模型·算法备案
赛姐在努力.17 小时前
【拓扑排序】-- 算法原理讲解,及实现拓扑排序,附赠热门例题
java·算法·图论
野犬寒鸦18 小时前
从零起步学习并发编程 || 第六章:ReentrantLock与synchronized 的辨析及运用
java·服务器·数据库·后端·学习·算法
霖霖总总18 小时前
[小技巧66]当自增主键耗尽:MySQL 主键溢出问题深度解析与雪花算法替代方案
mysql·算法
rainbow688918 小时前
深入解析C++STL:map与set底层奥秘
java·数据结构·算法