技术栈

drl

Robot_Nav
3 小时前
算法·td3·drl
TD3 —— 双延迟深度确定性策略梯度算法文献解读强化学习(Reinforcement Learning, RL)中的 Actor-Critic 框架是解决连续控制问题的主流方法之一。其中,深度确定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)作为 DPG 算法的深度扩展,在高维连续动作空间任务中展现了优异的性能。然而,DDPG 在实际训练过程中存在严重的稳定性问题,限制了其在复杂任务中的应用。
我是有底线的