普林斯顿大学DPPO机器人学习突破:Diffusion Policy Policy Optimization 全新优化扩散策略PNP机器人科研导读:随着语言和图像基础模型的发展,大规模预训练加上微调已经成为了常见的方法之一。在机器人策略学习中,虽然基于专家数据的行为克隆是一种主要的预训练范式,但由于专家数据可能存在局限性,强化学习(Reinforcement Learning,RL)成为进一步优化策略性能的重要手段。然而,对于基于扩散模型参数化的预训练策略,如扩散策略(Diffusion Policy),强化学习微调会面临一定挑战。尽管扩散模型在训练稳定性和表示复杂分布方面具有优势,但策略梯度(Policy Gradient,P