drl - drl技术,学习,经验文章

Robot_Nav

3 个月前

TD3 —— 双延迟深度确定性策略梯度算法文献解读强化学习（Reinforcement Learning, RL）中的 Actor-Critic 框架是解决连续控制问题的主流方法之一。其中，深度确定性策略梯度算法（Deep Deterministic Policy Gradient, DDPG）作为 DPG 算法的深度扩展，在高维连续动作空间任务中展现了优异的性能。然而，DDPG 在实际训练过程中存在严重的稳定性问题，限制了其在复杂任务中的应用。