【强化学习】2 大规模并行强化学习中的耦合策略优化:受控多样性驱动的样本高效探索随着GPU加速物理仿真器(如Isaac Gym、Genesis)的成熟,在单台设备上同步运行数以万计的并行环境已成为现实。然而,单纯增加并行环境数量并不能线性提升学习效率。在基于策略梯度的同策略(On-Policy)方法中,所有环境共享单一策略网络,导致采集的轨迹高度同质化,探索空间被严重压缩。这种现象在具有高维动作空间的灵巧操作(Dexterous Manipulation)任务中尤为突出:策略极易陷入局部最优,无法发现更优的行为模式。