DDPG算法

DDPG算法

全称Deep Deterministic Policy Gradient,是对DPG、DQN的继承、发展和改进

  • 对DQN算法:使其能够适用于连续动作空间
  • 对DPG算法:使用神经网络来拟合函数

算法介绍

核心:确定性策略梯度理论 ,在DPG算法中被提出,原论文,推导过程相当复杂,我也不大能看懂,总之用就完事了😂

训练流程:参考了DQN,因此属于Off Policy算法,使用了经验回放缓存,引入了actor target和critic target

算法伪代码

相关推荐
贾斯汀玛尔斯15 分钟前
每天学一个算法-快速排序(Quick Sort)
数据结构·算法
炽烈小老头17 分钟前
【每天学习一点算法 2026/04/16】逆波兰表达式求值
学习·算法
优家数科28 分钟前
水质监测不准?解密云端 TDS 数据建模纠偏算法
算法
木井巳34 分钟前
【递归算法】组合总和
java·算法·leetcode·决策树·深度优先·剪枝
coding者在努力44 分钟前
被n整除的n位数
c++·算法
黎阳之光1 小时前
去标签化无感定位技术突破,黎阳之光重构空间定位技术路径
大数据·人工智能·算法·安全·数字孪生
见叶之秋1 小时前
【数据结构】详解二叉树和堆
数据结构·算法
CoovallyAIHub2 小时前
MSD-DETR:面向机车弹簧检测的可变形注意力Detection Transformer
算法·架构
CoovallyAIHub2 小时前
不改权重、不用训练!BEM用背景记忆抑制固定摄像头误检,YOLO/RT-DETR全系有效
算法·架构·github
Struggle_97552 小时前
算法知识-从递归入手三维动态规划
算法·动态规划